一、引言
随着信息技术的飞速发展,大数据已成为当今时代的显著特征。
大数据具有体量大、结构单一、时效性强的特点,其在各个领域的应用越来越广泛,对社会的发展产生了深远影响。
作为全球科技巨头,谷歌在大数据处理和应用方面一直处于领先地位。
本文将对大数据时代的谷歌服务器规模进行深入研究,探讨其全球分布概览,揭示其背后的技术架构和运营策略。
二、大数据与谷歌服务器规模
1. 大数据特征
大数据具有鲜明的特点:体量大、结构单一、时效性强。
大数据的体量巨大,涉及的数据量远远超出传统数据处理工具的处理能力。
大数据以非结构化数据为主,如社交媒体、视频等,占据了相当大的比例。
最后,大数据的时效性要求高,需要在短时间内进行快速处理和分析。
2. 谷歌与大数据
谷歌是大数据领域的佼佼者,凭借其强大的服务器规模和先进的技术实力,在大数据处理和应用方面取得了显著成果。
谷歌的服务器规模庞大,遍布全球各地,为大数据处理提供了强大的硬件支持。
同时,谷歌还拥有一系列先进的数据处理技术和算法,如Google Cloud、TensorFlow等,为大数据分析提供了强大的软件支持。
三、谷歌服务器规模及其全球分布概览
1. 服务器规模
谷歌的服务器规模庞大,涵盖了数以万计的服务器。
这些服务器分布在各个国家和地区,形成了一个庞大的数据中心网络。
谷歌的服务器规模不断扩大,以满足日益增长的数据处理需求。
2. 全球分布概览
谷歌的数据中心遍布全球各地,包括美国、欧洲、亚洲等地区。
这些数据中心相互连接,形成了一个庞大的数据中心网络。
在美国,谷歌拥有多个数据中心,其设施和技术水平处于世界领先地位。
在欧洲,谷歌的数据中心也在不断扩展,以满足欧洲市场的需求。
在亚洲,谷歌的数据中心主要分布在中国、日本和印度等国家。
这些数据中心的布局充分考虑了地理因素、市场需求和基础设施建设等因素。
四、谷歌服务器规模背后的技术架构和运营策略
1. 技术架构
谷歌的服务器规模之所以能不断扩大,得益于其先进的技术架构。
谷歌的数据中心采用了分布式架构,将数据存储和处理的负载分散到多个服务器上,提高了数据处理效率和稳定性。
谷歌还采用了一系列先进的网络技术,如云计算、边缘计算等,提高了数据传输和处理速度。
2. 运营策略
谷歌在服务器规模方面的运营策略也值得一提。
谷歌注重数据中心的绿色环保和节能减排。
谷歌注重数据中心的智能化管理,通过自动化和智能化技术提高数据中心的运营效率和管理水平。
最后,谷歌注重与合作伙伴的合作,共同推动大数据技术的发展和应用。
五、结论
大数据时代已经到来,谷歌作为全球科技巨头,在服务器规模方面不断取得新的突破。
本文深入研究了大数据时代的谷歌服务器规模,探讨了其全球分布概览和技术架构及运营策略。
结果表明,谷歌的服务器规模庞大且遍布全球各地,其技术架构和运营策略也处于世界领先地位。
未来,随着大数据技术的不断发展,谷歌将继续扩大服务器规模,提高数据处理能力和效率,为全球用户提供更好的服务。
在互联网+及大数据时代,组织及管理者面临着哪些新的挑战和机遇?
大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。
《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。
有报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。
世界经济论坛的报告认定大数据为新财富,价值堪比石油。
因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
大数据时代的来临互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。
有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。
全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。
我国网民数居世界之首,每天产生的数据量也位于世界前列。
淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。
网络公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。
医院也是数据产生集中的地方。
现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。
总之,大数据存在于各行各业,一个大数据时代正在到来。
信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。
一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。
2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。
随着宽带化的发展,人均网络接入带宽和流量也迅速提升。
全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。
目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。
数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。
首先,大数据反映舆情和民意。
网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。
根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿,通过分析相关数据,可以了解大众需求、诉求和意见。
其次,企业和政府的信息系统每天源源不断产生大量数据。
根据一个公司的调研报告,全球企业的信息存储总量已达2.2ZB(1ZB等于1000EB),年增67%。
医院、学校和银行等也都会收集和存储大量信息。
政府可以部署传感器等感知单元,收集环境和社会管理所需的信息。
2011年,英国《自然》杂志曾出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。
大数据应用的领域大数据技术可运用到各行各业。
宏观经济方面,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值。
印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。
制造业方面,华尔街对冲基金依据购物网站的顾客评论,分析企业产品销售状况;一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。
有资料显示,全球零售商因盲目进货导致的销售损失每年达1000亿美元,这方面的数据分析大有作为。
在农业领域,硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地降雨、气温、土壤状况与历年农作物产量的相关度做成精密图表,预测农场来年产量,向农户出售个性化保险。
在商业领域,沃尔玛公司通过分析销售数据,了解顾客购物习惯,得出适合搭配在一起出售的商品,还可从中细分顾客群体,提供个性化服务。
在金融领域,华尔街“德温特资本市场”公司分析3.4亿微博账户留言,判断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的买入或卖出。
阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款。
目前已放贷300多亿元,坏账率仅0.3%。
在医疗保健领域,“谷歌流感趋势”项目依据网民搜索内容分析全球范围内流感等病疫传播状况,与美国疾病控制和预防中心提供的报告对比,追踪疾病的精确率达到97%。
社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台,医生借此可获得在医院通常得不到的临床效果统计数据。
基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。
在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行,实时交通客流信息及拥堵情况。
利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。
美国麻省理工学院通过对十万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规律性,进行犯罪预测。
在科学研究领域,基于密集数据分析的科学发现成为继实验科学、理论科学和计算科学之后的第四个范例,基于大数据分析的材料基因组学和合成生物学等正在兴起。
报告推测,如果把大数据用于美国的医疗保健,一年产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。
大数据技术的挑战和启示目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。
首先在数据收集方面。
要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
其次是数据存储。
要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
第三是数据处理。
有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
第四是结果的可视化呈现,使结果更直观以便于洞察。
目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。
大数据技术的运用前景是十分光明的。
当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。
大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。
为了开发大数据这一金矿,我们要做的工作还很多。
首先,大数据分析需要有大数据的技术与产品支持。
发达国家一些信息技术(IT)企业已提前发力,通过加大开发力度和兼并等多种手段,努力向成为大数据解决方案提供商转型。
国外一些企业打出免费承接大数据分析的招牌,既是为了练兵,也是为了获取情报。
过分依赖国外的大数据分析技术与平台,难以回避信息泄密风险。
有些日常生活信息看似无关紧要,其实从中也可摸到国家经济和社会脉搏。
因此,我们需要有自主可控的大数据技术与产品。
美国政府2012年3月发布《大数据研究与发展倡议》,这是继1993年宣布“信息高速公路”之后又一重大科技部署,联邦政府和一些部委已安排资金用于大数据开发。
我们与发达国家有不少差距,更需要国家政策支持。
中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。
此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。
政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。
美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。
例如,提供各地天气与航班延误的关系,推动航空公司提升正点率。
大数据的挖掘与利用应当有法可依。
去年底全国人大通过的加强网络信息保护的决定是一个好的开始,当前要尽快制定“信息公开法”以适应大数据时代的到来。
现在很多机构和企业拥有大量客户信息。
应当既鼓励面向群体、服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据被滥用。
此外,还需要界定数据挖掘、利用的权限和范围。
大数据系统本身的安全性也是值得特别关注的,要注意技术安全性和管理制度安全性并重,防止信息被损坏、篡改、泄露或被窃,保护公民和国家的信息安全。
大数据时代呼唤创新型人才。
预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。
预测美国到2018年需要深度数据分析人才44万—49万,缺口14万—19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。
大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,是具有无穷潜力的新兴产业领域;目前,其标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会。
我们要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手,但要注意科学规划,切忌一哄而上。
什么是大数据,它有哪些特点
大数据技术是指从各种各样海量类型的数据中,快速获得有价值信息的能力。
适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据具备以下4个特点:一是数据量巨大。
例如,人类生产的所有印刷材料的数据量仅为200PB。
典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型多样。
现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。
数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。
以视频为例,一小时的视频,在不间断的测试过程中,可能有用的数据仅仅只有一两秒。
从谷歌流感趋势谈大数据分析的光荣与陷阱
从谷歌流感趋势谈大数据分析的光荣与陷阱
本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。
本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。
?
一、谷歌流感趋势:未卜先知?
“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。
2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。
甫一登场,GFT就亮出十分惊艳的成绩单。
2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。
有了这两周,人们就可以有充足的时间提前预备,避免中招。
多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。
2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。
2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。
高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。
这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。
那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。
Lazer等学者穷追不舍。
他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。
并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。
因为遗漏了某些重要因素,GFT还是病得不轻。
为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。
二、新瓶装旧酒:过度拟合
大数据时代的来临,为数据收集带来了深刻变革。
海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。
但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。
而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。
我们先用一个故事来解释何为过度拟合。
假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。
该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。
但是这所学校有个古怪,就是从不教授犯罪心理学。
象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。
学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。
学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。
比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。
完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。
测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。
冠军即象牙塔最棒警察,可以派到社会上抓小偷了。
一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔, 该警察就老犯错抓、该抓不抓的错误。
他抓小偷的表现,甚至比从来没有来象牙塔学习的人还要差。
在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习之后挑选出来的最优模型。
小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。
前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。
不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。
训练最佳警察的过程,就类似于运用机器学习技术, 采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中 。
最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。
由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。
由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。
也就是说,在样本内预测很好的模型,到样本外预测很差。
这,就是过度拟合的问题。
从过度拟合角度,可以帮助我们理解为什么GFT在2009年表现好而之后表现差。
在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。
这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合已经观察到的发病率。
Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。
2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。
但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。
从上面的故事可以看到,产生过度拟合有三个关键环节。
第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。
第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌握已知小偷的特征。
第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。
在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。
三、大数据分析的挑战
(一)陷阱一:“大数据自大”