引言
随着云计算的日益普及,企业越来越倾向于采用多云策略,以满足其不同的业务需求。多云环境可以提供更高的可用性、灵活性和成本效益。管理异构云环境也带来了一系列挑战,包括:基础设施和服务的异构性跨云互操作性的复杂性安全性和合规性的担忧
云服务器多云管理
云服务器多云管理平台旨在解决这些挑战,提供一个统一的界面,用于管理来自不同云提供商的云服务器。这些平台提供了一系列功能,包括:资源统一视图:提供对所有云服务器的集中视图,无论其所在云平台。自动化编排:自动执行云服务器的生命周期管理,包括创建、启动、停止和终止。跨云迁移:轻松地在不同云平台之间迁移云服务器,而不会中断服务。集中监控和报警:监控所有云服务器的运行状况和性能,并及时发出警报。成本优化:分析云服务器的使用情况,识别成本节省机会并优化资源分配。
实现无缝互操作
云服务器多云管理平台通过以下方式实现异构云环境的无缝互操作:API集成:集成不同云提供商的API,以便平台可以统一管理所有云服务器。适配器和转换器:创建适配器和转换器,以弥合不同云平台之间的服务和功能差异。单点控制台:提供一个单一的控制台,用于管理所有云服务器,简化了操作和故障排除。
优势
云服务器多云管理平台提供以下优势:简化管理:通过单一界面集中管理所有云服务器,简化了操作和维护。增强灵活性:允许企业轻松地在不同云平台之间移动工作负载,以满足不断变化的需求。提高可用性:通过跨云冗余和故障转移,提高了云服务器的可用性和弹性。优化成本:通过分析云服务器的使用情况和优化资源分配,降低了云计算成本。加强安全:通过统一的访问控制、身份管理和日志记录,增强了多云环境的安全。
用例
云服务器多云管理平台有广泛的用例,包括:混合云管理:管理本地数据中心和云中的云服务器,提供混合云解决方案的无缝集成。云计算迁移:跨不同云提供商迁移云服务器,以优化成本、性能或合规性。多云开发环境:提供一个统一的环境,用于跨多个云平台开发和部署应用程序。灾难恢复和备份:建立跨不同云平台的灾难恢复和备份策略,以最大限度地减少业务中断。多云网络:连接和管理不同云平台上的虚拟网络,以建立混合云拓扑。
选择云服务器多云管理平台
在选择云服务器多云管理平台时,应考虑以下因素:支持的云提供商:确保平台支持您使用的所有云提供商。功能:评估平台提供的功能,以满足您的特定需求。集成能力:考虑平台与您的现有工具和系统集成的能力。安全性:评估平台的安全功能和合规认证。成本:比较不同平台的定价模型和许可选项。
结论
云服务器多云管理平台是实现异构云环境无缝互操作的关键工具。这些平台简化了管理、增强了灵活性、提高了可用性、优化了成本并加强了安全。通过谨慎选择和实施云服务器多云管理平台,企业可以充分利用多云策略的优势,从而增强其IT基础设施的敏捷性和效率。
解析云原生 2.0 架构设计的 8 大关键趋势
云原生2.0是企业智能升级新阶段,企业的云化从“ON Cloud”走向“IN Cloud”,当一切应用都生于云,长于云,云架构的迭代也会进入一个新的阶段。
围绕云原生2.0,华为云首席架构师顾炯炯提出了8个关键模式: 分布式云,混合调度,应用驱动基础设施,存算分离与数据治理自动化,可信、平民化DevOps,基于软总线的异构集成,多模态可迭代AI模型,全方位立体式云安全。
分布式云
随着云化和数字化渗透到制造类、工业互联网类场景,5G技术在to B领域应用的快速成熟,以及物联网 、AI技术的成熟,现在云的服务对象不仅是企业的后台IT支撑系统,它延伸到了前端的“现场”,类似于工业场景里的近场计算。
如果还是将所有的数字化应用系统都放在集中的数据中心,它的时延无法满足实时生产系统的要求。
另外,有一些行业的敏感数据不能从现场或者数据产生地直接简单的上传到云端,它存在数据安全、隐私保密的问题。
再比如医疗里的基因大数据、视频监控等场景,如果所有数据都上传到云端,带宽的成本非常高昂。
所以,我们必须要引入云边端协同的分布式概念,构建分布式云的架构。
这个架构可以和核心侧架构配合,覆盖核心区域、热点区域、本地机房、业务现场等不同接入时延敏感度,数据隐私合规要求及数据上云带宽成本的应用上云场景。
举个例子,通过这样的方式,可以把云端的很多算力和计算逻辑,甚至是训练好的AI模型推送到更加靠近用户数据产生地的位置上,进行就近的计算,将海量的数据做一定的收敛、分析、脱敏等,再发送到云端进行闭环的处理和控制反馈。
混合调度
在很多算法专家的努力下,华为云通过瑶光调度平台大大提高了资源的分配效率,达到甚至超过了80~90%的程度,已经接近于业界的领先水平。
但是资源的实际利用率仍然处在一个比较低的水平,当然业界平均也不是特别理想,领先者差不多20%左右。
为了解决这样的问题,华为云引入混合调动、柔性计算的能力,将在线和离线的不同优先级的业务,进行QoS感知的智能调用,实现资源利用率最大化。
柔性计算不仅仅具备弹性的特征,保证了横向的资源扩展,而且它也能实现纵向资源规格的可大可小。
目前,消费者云已经在内部验证了柔性计算的能力,可以在不改变上层业务的前提下提高利用率,实现性能的倍增。
关于柔性计算的更多内容参考 华为云首席架构师顾炯炯:敢为人先,探索架构创新之路如何走。
应用驱动的基础设施
如今,软硬件的垂直整合,特别是靠近操作系统底层的硬件和云服务基础设施层的服务软件之间的纵向整合能力,成为新的趋势,它把基础设施服务底层的硬件和相应的服务封装层打包在一起。
云服务厂商可以设计研发定制芯片,比如存储和网络的硬件卸载的芯片、匹配深度学习逻辑处理框架的芯片等等。
如果有能力构建这样的软硬件垂直整合的能力,就能拥有相比其他云服务商更优的价格优势,也得以呈现自身独特的硬件、芯片优势。
有了应用驱动的基础设施之后,根据应用的性能SLA需求,来定义是使用与软件完全解耦的通用硬件资源,还是匹配应用场景特殊诉求的软硬件深度协同的卸载卡或异构计算资源。
这也能发挥华为软硬件兼长的优势,我们在硬件领域有不少核心创新:一个是 SDI, 叫软件驱动的基础设施,也就是把分布式存储\分布式网络,还有Hypervisor的一些系统能力从服务器卸载到PCI卡上,也即SDI/擎天卸载卡。
二是鲲鹏硬件支撑云存储和数据湖的处理, 鲲鹏单核处理能力虽弱于X86,但核密度则达到X86 CPU的2倍,因此在对IO及内存带宽作为其性能瓶颈的大数据及分布式存储场景,是比X86更好的选择。
同时,我们也在用自研的升腾NPU取代GPU构建AI平台, 它在深度学习的训练推理中体现出更高的能效比。
存算分离和数据治理的自动化
未来企业的所有的数据孤岛都将汇聚到云端的数据湖,进行统一生命周期的治理和管理,所以必须要解决数据计算分析的资源需求。
数据湖里有各种各样的结构化、半结构化、非结构化的数据,但这些数据的分析计算和底层的存储容量之间的需求,并不是线性匹配的关系。
比如对于深度学习的场景,数据量需要不断的计算迭代,它需要更多的计算能力,相对较少的存储需求。
因此在不同的业务场景下,数据分析计算和存储的要求是不一样的,最终一定要走向存算分离。
在存算分离领域里面,华为云已经积累优势,从最早的去中心化的分布式存储引擎FusionStorage开始,七年磨一剑,我们从内部验证到向外部的推广,从块存储延伸到对象存储、文件存储、分布式的集群数据库,把原先在开源架构里五花八门的底层存储技术引擎架构实现了统一。
经过实际的测试,在业界同样支持存算分离数据湖架构的云场景中,华为云体现了领先30-60%以上性能优势。
再就是数据治理自动化。
现在的数据治理的还是人力密集型工作,整个过程非常低效,很难满足很多行业的要求。
所以在这个架构模式里面,除了存算分离的数据库,还要构建数据治理自动化。
通过引入AI的技术,将数据的获取、清洗以及最终数据知识的提取,主题库的建立、数据目录的发布,都实现完全的自动化。
用户只需要指定入湖的数据源和所属业务主题域,系统自动化创建入湖任务,底层资源根据入湖数据量自动扩缩容,智能完成入湖数据的安全等级、分级分类、隐私等级等数据标签的自动识别打标。
这个能力对企业数据资产的快速沉淀能力的构建是至关重要的。
可信、平民化DevOps
通过将一系列安全可信措施嵌入到敏捷开发运维模式, 构建所谓的DevSecOps流水线,实现敏捷快速迭代与严格质量管控兼顾;并通过低代码/无代码实现更多行业应用资产的沉淀, 将行业应用的开发效率再上一个新台阶。
Devops实现了应用的敏捷开发,但在面向政企时,还需要满足应用质量和安全可信的要求。
因此在遵循DevOps的同时,将安全能力集成到其中,升级成为DevSecOps。
使用安全左移、默认安全、运行时安全、安全服务自动化/自助化、基础设施即代码(IaC)等技术, 实现管理与协同、设计与开发、CI/CD、应用管理、运维、安全可信等各个环节的一体化趋势。
此外,由于传统政企开发投入有限,需要通过低码化无码化,来实现对应用进行快速构建及改造。
华为云低代码平台AppCube可支持多种页面类型和丰富的组件能力,基于它的服务能力编排和业务流程无代码定制,可实现灵活流程触发方式、多种权限配置方式、自定义业务编排等。
基于软件总线的异构集成
即帮助企业构建可平滑演进的IT架构, 实现老旧应用与新建云原生应用,线上与线下应用的平滑融合集成。
云原生下,企业很多应用都要进行微服务解耦,遵从微服务的治理架构,进行水平扩展的架构的设计,甚至把原来的单体架构逐步进行拆解。
但这个过程不是一蹴而就的,尤其是那些包袱比较重的传统行业,他们还面临很多现实的挑战。
所以我们要在企业传统IT架构和云原生架构之间搭建无缝的桥梁,在确保企业业务连续性最大化的前提下,实现平滑的切换和演进。
以Roma Connect为例,它可以通过软总线的形式,把云原生和非云原生的传统世界无缝的连接起来,支持异构的应用和数据库源的对接,也可以对接到云上开发平台、数据湖,实现无缝互通。
在架构的平滑演进中,首先需要将传统非云原生应用封装为REST接口与云原生应用对接,通过统一接口服务层APIC进行开放,业务云原生应用通过标准接口即可获取老系统信息。
同样的机制可以将线上线下,及部署在多云环境上企业IT系统的无缝互通。
其次传统Oracle/Sybase等传统数据库及中间件与设备协议接入上云:云上云原生应用通过云上标准API调用、数据库访问、消息订阅等方式即可获取传统数据。
最后,通过全生命周期的API管理能力,包含从设计、发布、上架、治理的全过程,帮助企业构建整个跨地域,跨组织、跨部门的应用网络,并沉淀行业应用资产。
多模态可迭代的AI模型
AI在行业落地面临的问题是能够获取到的训练数据是非常有限的,单纯的依赖数据驱动的深度学习训练,使得行业AI模型是非常难以泛化、通用化。
预训练大模型是解决AI应用开发定制化和碎片化的重要方法。
通过一个AI大模型实现在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,赋能AI开发由作坊式转变为工业化开发,比如华为云之前推出的盘古大模型。
另外也要引入知识计算的能力, 类似于把知识图谱这样的能力和基于感知计算的数据驱动的AI模型互补结合起来。
也就是说把知识模型和数据模型,在数据样本相对缺少的情况下结合在一起,更好服务于行业AI的落地。
帮助企业打造自己的知识计算平台,整合分散在不同系统、多种形态的企业数据,形成带有建议性的知识体系。
全方位的立体式云安全
1.0阶段的云安全服务更多的是孤立的安全能力:虚拟化安全,hyporvisor防逃逸能力,云防火墙能力其实都是割裂的,并没有跟所有的云服务形成互锁。
全方位的立体式运营安全通过打通离散的云安全服务能力,将其与其他云服务及客户应用形式互锁, 构建安全Build-in的云原生应用,以及引入可信智能计算,解决跨行业数据隐私保护与流通碰撞、价值挖掘之间的矛盾。
首先通过可信智能计算提供四个核心能力,进行安全可信的数据计算。包括:
1、跨组织、跨行业的多方数据融合分析和多方横向与纵向联邦学习建模;
2、支持对接主流数据源和深度学习框架;
3、支持安全多方计算(例如同态加密,差分隐私等),并支持用户自定义隐私策略;
4、基于区块链的数据计算轨迹的可追溯可审计。
此外,为了全方位安全,还需要将全栈云(及其子集)下沉部署(连线/非连线),彻底解决敏感行业上云安全顾虑,以及将全栈云服务、企业新开发云原生应用、aPaaS/SaaS等与全栈云安全能力互锁,为用户构建体系化的云安全平台。
本文分享自华为云社区,作者:技术火炬手。
北大青鸟java培训:什么是云架构师?
随着云战略越来越重要和复杂,云架构师可以帮助企业规避风险,并确保向云端的迁移工作成功完成且极具成本效益。
云计算架构涵盖了与云计算相关的一切,包括管理云存储所需的前端平台、服务器、存储、交付和网络。
云架构师的角色根据发布的2018年报告,81%的企业实施了多云战略,38%的企业将公有云视为2018年的首要工作,而2017年这一比例为29%。
电脑培训通过该报告还发现,云架构师职位数量在过去一年有所增长,2018年受访者中有61%的人被认为是云架构师,而2017年这一比例则为56%。
“采用云计算是一个多维度的工作,必须像一个多年项目那样管理,而不是一个固定期限的项目。
因此,基于使用云计算的复杂性,要求至少配备一名负责任的架构领导者来领导一个组织完成云计算转型工作。
为了应对使用云计算的复杂性,大多数还未聘用云架构师的组织,都希望聘用这一角色。
这些IT专业人员可以帮助整个组织应对在使用云计算过程中出现的问题,帮助规避风险并确保顺利过渡。
云架构师的职责根据高德纳公司的说法,云架构师的三大主要职责是:为使用云计算而引导企业进行文化变革开发和协调云架构制定云战略并协调适应过程据高德纳公司称,尽管这是云架构师的一些高层次职责,但其日常职责包括:寻找拥有必要技能的人才贵阳八维教育版权所有对应用程序、软件和硬件的评估组建一个“云经纪人团队”在整个公司内建立云计算的最佳实践北选择云供应商并审核第三方服务监督管理并降低风险与IT安全人员密切合作,监控隐私并制定事件响应程序管理预算和估算成本大规模运作云架构师的薪水根据数据,云架构师的平均年薪为124,923美元,根据其工作经验、地点和技能,报告的薪资范围为每年82,309至185,208美元。
云架构师的技能云架构师负责与供应商沟通协商,制定硬件、软件和其他云技术的第三方合同。
这是一个不断发展的领域,而这一工作需要一个能够掌握最新趋势和技术的人才。
“云架构师应该具备各种技术性和非技术性技能,但最重要的是,云架构师必须是一位出色的合作者,才能与您组织中各种其他职能人员进行沟通,”。
尽管对于云架构师来说,具有强大的沟通技巧和保持敏捷思维的能力至关重要,但对于这一工作来说,还需要很多其他的技术性技能和软技能。
对于当今最流行的大数据技术AL人工智能技术。物联网技术。你了解多少?
带你了解大数据及人工智能时代的3项关键技术
01 云计算根据美国国家标准与技术研究院(National Instituteof Standards and Technology,NIST)的定义,云计算是指能够针对共享的可配置计算资源,按需提供方便的、泛在的网络接入的模型。
上述计算资源包括网络、服务器、存储、应用和服务等,这些资源能够快速地提供和回收,而所涉及的管理开销要尽可能小。
具体来说,云模型包含五个基本特征、三个服务模型和四个部署模型。
五个基本特征:
按需自助服务(on-demand self-service)
广阔的互联网访问(broad network access)
资源池(resource pooling)
快速伸缩(rapid elasticity)
可度量的服务(measured service)
三个服务模型:
软件即服务(Software as a Service,SaaS)
平台即服务(Platform as a Service,PaaS)
基础设施即服务(Infrastructure as a Service,IaaS)
四个部署模型:
私有云(private cloud)
社区云(community cloud)
公有云(public cloud)
混合云(hybrid cloud)
一般来说,云计算可以被看作通过计算机通信网络(例如互联网)来提供计算服务的分布式系统,其主要目标是利用分布式资源来解决大规模的计算问题。
云中的资源对用户是透明的,用户无须知晓资源所在的具体位置。
这些资源能够同时被大量用户共享,用户能够在任何时间、任何地点访问应用程序和相关的数据。
云计算的体系结构如图1-3所示,还对三个服务模型进行了阐述。
▲图1-3 云计算的体系结构1. 基础设施即服务这项服务是云计算提供的最简单的内容,其涉及大规模的计算资源的交付,这些计算资源包括存储空间、运算能力和网络带宽等。
基础设施即服务的主要优势是按次付费、安全性以及可靠性,因此也被称为硬件即服务(Hardware as a Service,HaaS)。
这项服务的典型案例有亚马逊云(Amazon Elastic Compute Cloud,EC2)、谷歌计算引擎(Google Compute Engine,GCE)和阿里云(Aliyun)等。
2. 平台即服务这项服务为云计算提供了应用程序的接口。
对于云计算来说,基础设施即服务在很多应用场景下能力不足。
随着网络应用程序数的井喷式增长,平台即服务的相关研究与应用逐步涌现。
很多全球性的跨国公司都不约而同地寻求在云计算平台方面称霸,就像微软在个人电脑领域所处的地位一样。
平台即服务的典型案例有谷歌应用引擎(Google App Engine,GAE)、微软云(Microsoft Azure)等。
3. 软件即服务这项服务旨在提供终端用户可以直接使用的服务,这里的服务可以理解为部署在互联网上的软件。
这样的服务模式在很大程度上替代了在个人电脑上运行的传统应用程序。
软件即服务的典型案例有思科(Cisco)的思科网迅(WebEx)、软营(Salesforce)的客户关系管理(Customer Relationship Management,CRM)系统以及亚马逊网络服务(Amazon Web Service,AWS)。
02 物联网物联网技术栈由三个核心层构成,即物/设备层、连接层和物联网云层,详情如图1-4所示。
▲图1-4 物联网的技术栈在物/设备层,诸如传感器、执行器等物联网特定的硬件可以被添加至已有的核心硬件中,嵌入式的软件可以被修改或集成进已有的系统,以便管理和操作具体的设备。
在连接层,由通信协议来实现单个物/设备与云之间的通信,例如消息队列遥测传输(Message Queuing Telemetry Transport,MQTT)协议。
在物联网云层,设备通信协议和管理软件用来协调、提供和管理互相连接的物/设备,由应用平台来实现物联网应用程序的开发和执行。
此外,物联网云层还引入了分析与数据管理软件来存储、处理和分析由物/设备产生的数据。
针对跨物/设备、人员和系统的过程监测,引入了过程管理软件来进行定义和执行。
对于给定的目的,由物联网应用程序软件来协调物/设备、人员和系统之间的交互。
在上述三层的全域范围内,还存在特定的软件构件来对物联网体系整体的身份和安全进行管理,以及提供与商业系统和外部信息源的集成,常见的商业系统和外部信息源类型有企业资源计划(Enterprise Resource Planning,ERP)系统和客户关系管理(CRM)系统,外部信息源通常是指来自第三方的信息。
在谈论物联网技术时,“物联网平台”(IoTplatform)是一个提及频次很高的概念。
在计算领域,术语“平台”是一个相对广泛的概念,有些文献将平台定义为一组有机结合起来的技术,基于这些技术,能够开发其他的应用程序。
物联网平台本质上是软件产品,其提供大量与应用程序无关的功能,利用这些功能可以构建物联网应用程序。
对于各种不同的物联网平台,其提供者所侧重的物联网技术不同,因此所提供的功能集合也是不同的。
换言之,物联网平台的配置没有统一的标准,但是存在众多针对不同领域特定需求的物联网平台,例如ThingSpeak、DeviceHive、Xively、WSO2以及海尔COSMOPlat等。
将云计算与物联网进行对比分析,给出了两个技术领域的互补方面,详情如表1-1所示。
▼表1-1云计算与物联网的互补方面
一般来说,物联网能够在云计算的虚拟形式的无限计算能力和资源上补偿自身的技术性限制(例如存储、计算能力和通信能力)。
云计算能够为物联网中服务的管理和组合提供高效的解决方案,同时能够实现利用物联网中产生的数据的应用程序和服务。
对于物联网来说,云计算能够以更加分布式的、动态的方式来扩展其能处理的真实世界中物/设备的范围,进而交付大量实际生活中的场景所需要的服务。
在多数情况下,云计算能够提供物与应用程序之间的中间层,同时将实现应用程序所必需的复杂性和功能都隐藏起来,这将影响未来的应用程序开发。
在未来的多云环境下,应用程序的开发面临着来自信息的收集、处理和传输等方面的新挑战。
物联网在工业领域的应用涵盖了众多方面,例如自动化、优化、可预测制造、运输等。
制造(manufacturing)是物联网在工业领域最大的市场,涉及软件、硬件、连通性和服务等。
随着物联网的引入,由原料、工件、机器、工具、库存和物流等组成的工业系统构成了实施制造过程的生产单元,上述这些构件之间可以互相通信。
物联网提供的连通性驱动了各项操作技术(Operational Technology,OT)的实际性能的收敛性,这里的操作技术包括机械手、传送带、仪表、发电机等。
在整个制造过程中,传感器、分布式控制以及安全软件发挥着“胶水”的作用。
当前,工业领域有远见的企业都将生产线和生产过程构建在了物联网之上。
运输(transportation)是物联网在工业领域的第二大市场。
当前,在众多城市中涌现的智能运输网络能够优化传统运输网络中的路径,生成高效、安全的路线,降低基础设施的开销并缓解交通拥塞。
航空、铁路、城际等货运公司能够集成海量的数据来对需求进行实时分析,实现统筹规划和优化操作。
03 大数据随着物联网和云计算技术的发展,海量的数据以前所未有的速度从异构数据源产生,这些数据源所在的领域有医疗健康、政府机构、社交网络、环境监测和金融市场等。
在这些景象的背后,存在大量强大的系统和分布式应用程序来支持与数据相关的操作,例如智能电网(smart grid)系统、医疗健康(healthcare)系统、零售业(retailing)系统、政府(government)系统等。
在大数据的变革发生之前,绝大多数机构和公司都没有能力长期保存归档数据,也无法高效地管理和利用大规模的数据集。
实际上,现有的传统技术能够应对的存储和管理规模都是有限的。
在大数据环境下,传统技术缺乏可扩展性和灵活性,其性能也无法令人满意。
当前,针对海量的数据集,需要设计涵盖清洗、处理、分析、加载等操作的可行性方案。
业界的公司越来越意识到针对大数据的处理与分析是使企业具有竞争力的重要因素。
1. 三类定义当前大数据在各个领域的广泛普及使得学界与业界对大数据的定义很难达成一致。
不过有一点共识是,大数据不仅是指大量的数据。
通过对现有大数据的定义进行梳理,我们总结出三种对大数据进行描述和理解的定义。
1)属性型定义(attributive definition)作为大数据研究与应用的先驱,国际数据公司(International Data Corporation,IDC)在戴尔易安信(DELLEMC)公司的资助下于2011年提出了如下大数据的定义:
大数据技术描述了技术与体系结构,其设计初衷是通过实施高速的捕获、发现以及分析,来经济性地提取大量具有广泛类型的数据的价值。
该定义侧面描述了大数据的四个显著特征:数量、速度、多样化和价值。
由Gartner公司分析师Doug Laney总结的研究报告中给出了与上述定义类似的描述,该研究指出数据的增长所带来的挑战与机遇是三个维度的,即显著增长的数量(Volume)、速度(Velocity)和多样化(Variety)。
尽管Doug Laney关于数据在三个维度的描述最初并不是要给大数据下定义,但包括IBM、微软在内的业界在其后的十年间都沿用上述“3V”模型来对大数据进行描述。
2)比较型定义(comparative definition)Mckinsey公司2011年给出的研究报告将大数据定义为:
规模超出了典型数据库软件工具的捕获、存储、管理和分析能力的数据集。
尽管该报告没有在具体的度量标准方面对大数据给出定义,但其引入了一个革命性的方面,即怎样的数据集才能够被称为大数据。3)架构型定义(architectural definition)美国国家标准与技术研究院(NIST)对大数据的描述为:
大数据是指数据的数量、获取的速度以及数据的表示限制了使用传统关系数据库方法进行有效分析的能力,需要使用具有良好可扩展性的新型方法来对数据进行高效的处理。
2. 5V以下是一些文献中关于大数据特征的描述:
数据的规模成为问题的一部分,并且传统的技术已经没有能力处理这样的数据。
数据的规模迫使学界和业界不得不抛弃曾经流行的方法而去寻找新的方法。
大数据是一个囊括了在合理时间内对潜在的超大数据集实现捕获、处理、分析和可视化的范畴,并且传统的信息技术无法胜任上述要求。
大数据的核心必须包含三个关键的方面:数量多、速度快和多样化,即著名的“3V”。
1)数量数据的数量又称为数据的规模,在大数据中,其是指在进行数据处理时所面对的超大规模的数据量。
目前,海量的数据持续不断地从千百万设备和应用中产生(例如信息通信技术、智能手机、软件代码、社交网络、传感器以及各类日志)。
McAfee公司在2012年估算:在2012年的每一天中,全球都产生着2.5EB的数据,并且该数值约每40个月实现翻倍。
2013年,国际数据公司(IDC)估算全球所产生、复制和消费的数据已经达到4.4ZB,并且该数值约每两年实现翻倍。
到2015年,全球产生的数据将达到8ZB。
根据IDC的研究报告,全球产生的数据将在2020年达到40ZB。
2)速度在大数据中,数据的速度是指在进行数据处理时所面对的具有高频率和高实时性的数据流。
高速生成的数据应当及时进行处理,以便提取有用的信息和洞察潜在的价值。
全球知名的折扣连锁店沃尔玛基于消费者的交易每小时产生2.5PB的数据。
视频分享类网站(例如优酷、爱奇艺等)则是大数据高频率和高实时性特征的另一个例证。
3)多样化在大数据中,数据的多样化是指在进行数据处理时所面对的具有不同语法格式的数据类型。
随着物联网技术与云计算技术的普及,海量的多源异构数据从不同的数据源以不同的数据格式持续地产生,典型的数据源有传感器、音频、视频、文档等。
海量的异构数据形成各种各样的数据集,这些数据集可能包含结构化数据、半结构化数据、非结构化数据,数据集的属性可能是公开或隐私的、共享或机密的、完整或不完整的,等等。
随着大数据理论的发展,更多的特征逐步被纳入考虑的范围,以便对大数据做出更好的定义,例如:
想象(vision),这里的想象是指一种目的;
验证(verification),这里的验证是指经过处理后的数据符合特定的要求;
证实(validation),这里的证实是指前述的想象成为现实;
复杂性(complexity),这里的复杂性是指由于数据之间关系的进化,海量数据的组织和分析均很困难;
不变性(immutability),这里的不变性是指如果进行妥善管理,那么经过存储的海量数据可以永久保留。
描述大数据的五个关键特征(即“5V”):
数量(Volume)
速度(Velocity)
多样化(Variety)
准确性(Veracity)
价值(Value)
4)准确性在商界,决策者通常不会完全信任从大数据中提取出的信息,而会进一步对信息进行加工和处理,然后做出更好的决策。
如果决策者不信任输入数据,那么输出数据也不会获得信任,这样的数据不会参与决策过程。
随着大数据中数据规模的日新月异和数据种类的多样化,如何更好地度量和提升数据可信度成为一个研究热点。
5)价值一般来说,海量的数据具有价值密度低的缺点。
如果无法从数据中有效地提取出潜在的价值,那么这些数据在某种程度上就是没用的。
数据的价值是决策者最关注的方面,其需要仔细且认真的研究。
目前,已经有大量的人力、物力和财力投入到大数据的研究和应用中,这些投资行为都期望从海量数据中获得有价值的内容。
但是,对于不同的机构和不同的价值提取方法,同样的数据集所产生的价值差异可能很大,即投入与产出并不一定成正比。
因此,对大数据价值的研究需要建立更加完善的体系。