一、引言
随着信息技术的快速发展,云计算作为一种新型的计算模式,在企业中得到了广泛应用。
云计算不仅能够提高数据处理能力,还能降低IT成本,提升企业的竞争力。
随着云计算规模的扩大和业务的复杂性增加,如何保障云计算的稳定运行成为了一个亟待解决的问题。
云性能监测与管理作为保障企业云计算稳定运行的重要一环,其作用日益凸显。
二、云计算的挑战与云性能监测的重要性
在云计算环境下,企业面临着诸多挑战。
云计算系统的复杂性导致故障排查和性能优化变得困难。
随着业务需求的增长,云计算资源需要动态调整,以满足不断变化的工作负载。
云服务的安全性和稳定性问题也是企业关注的焦点。
为了解决这些问题,云性能监测与管理成为了关键。
云性能监测能够实时收集和分析云计算系统的性能数据,包括资源利用率、响应时间、吞吐量等。
通过对这些数据的分析,企业可以了解云计算系统的运行状态,及时发现潜在问题,并采取相应措施进行优化。
因此,云性能监测对于保障企业云计算的稳定运行具有重要意义。
三、云性能监测与管理的主要功能
1. 资源监控:云性能监测系统能够实时监控云计算系统的资源使用情况,包括CPU、内存、存储、网络等。通过收集这些数据,企业可以了解资源的实时使用情况,避免资源浪费和瓶颈问题。
2. 性能评估:云性能监测系统可以对云计算系统的性能进行评估,包括响应时间、吞吐量、错误率等。这些评估结果可以帮助企业了解系统的性能状况,为优化和调整提供依据。
3. 故障诊断:当云计算系统出现故障时,云性能监测系统能够迅速定位问题所在,并提供详细的故障信息。这有助于企业快速解决问题,恢复系统的正常运行。
4. 预警管理:云性能监测系统可以通过设置阈值,对关键性能指标进行预警管理。当性能指标超过预设阈值时,系统会发出警报,提醒企业及时采取措施进行优化。
5. 自动化运维:云性能监测系统可以实现自动化运维,包括自动扩容、自动优化、自动恢复等。这有助于企业提高运维效率,降低人工成本。
四、云性能测试服务的作用
云性能测试服务是云性能监测与管理的重要组成部分。
它通过模拟真实用户环境和业务负载,对云计算系统进行全面的性能测试。
云性能测试服务的作用主要体现在以下几个方面:
1. 评估性能:通过对云计算系统进行压力测试、负载测试等,评估系统的性能表现,为企业选择合适的云计算服务提供依据。
2. 发现潜在问题:通过模拟真实环境下的业务负载,发现系统中存在的瓶颈和问题,为优化和调整提供方向。
3. 优化资源配置:根据测试结果,对云计算系统的资源进行优化配置,提高系统的性能和稳定性。
4. 提供决策支持:云性能测试结果可以为企业的决策提供支持,如是否增加资源投入、是否调整业务策略等。
五、结论
云性能监测与管理是保障企业云计算稳定运行的重要一环。
通过资源监控、性能评估、故障诊断、预警管理和自动化运维等功能,云性能监测系统能够帮助企业了解云计算系统的运行状态,及时发现和解决问题,保障系统的稳定运行。
而云性能测试服务则为企业提供了评估性能、发现潜在问题、优化资源配置和决策支持等服务,有助于企业更好地利用云计算资源,提升竞争力。
云服务的评估
企业考虑云计算的关注点之一就是性能。
实现应用程序在云中的高速交付是一个涉及多方面因素的挑战性命题,其中包括一个整体的接入方法和一个对应用程序“请求-响应”路径的端到端查看。
性能问题包括:应用程序与数据相对于最终用户的地理位置,云中、云内外以及计算机层和数据存储多层次之间的I/O访问速度。
当今,诸如CloudSleuth和CloudHarmony之类的众多服务研究报告试图通过从不同地理位置和采用不同应用程序的方法来度量和评估云计算供应商所提供服务的性能。
云服务技术堆栈一直以来,一些云计算供应商都致力于提供特定软件堆栈的服务。
通常,这就意味着他们从基础设施即服务(IaaS)转变至平台即服务(PaaS)。
不同堆栈特定云可与其他的大多数流行软件堆栈相配合。
其典型代表包括:Heroku和Engine Yard的Ruby;VMforce和Google应用程序引擎(GAE)的Java/Spring(其中GAE还支持Python);PHP Fog的PHP以及微软公司Windows Azure的。
如果你的应用程序使用以上堆栈之一进行构建,你可能需要考虑这些云计算平台。
他们能够帮助你处理低层次基础设施的安装和配置工作,从而节省在时间和费用方面的巨大支出。
另一方面,他们往往会要求开发商在进行架构和编写应用程序时遵循某些推荐的要求,以便于创建高等级的供应商级同步。
云服务服务级别协议有些云供应商做出了提供更高等级服务的承诺,以示与其他行业竞争对手的不同。
比如Rackspace提供更高等级云服务SLA,从而展开与云计算业内的巨头Amazon公司的竞争。
请注意,SLA通常只是当服务发生故障时结果的一个指示,而不是实际服务的可靠性。
其典型代表是GoGrid %确保的SLA。
换而言之,GoGrid做出了100%正常运行时间的承诺。
如果它无法满足这一级别的可靠性,它将赔偿用户100倍停机时所需支付的费用。
虽然SLA是评估所有供应商承诺等级的一个有效指标,但了解特定云供应商的实际正常运行时间是一个更为棘手的难题。
大多数供应商都提供了一个用于表明服务正常运行的状态页面,但是这些页面显示的数据通常只是数天前甚至更早时候的。
为了获得实际具有可靠性和可用性的长期数据,用户最好依赖于客户反馈以及诸如CloudSleuth和CLoudHarmony的比较服务。
云服务API:同步、社区以及生态系统选择合适云供应商的另外一个关键因素在于开放应用程序编程接口(API),它为访问基础设施和执行操作(例如配置服务器或解除服务器配置)提供外部调用方法。
从很多方面来说,API都是重要的。
首先,一个API可得到多个供应商同时支持,同时供应商也为用户提供了更大的功能扩展自由度。
因为当从一个供应商转向另一个供应商,或同时与多个供应商合作时,基本上不用对应用程序做重大修改,所以显得更为容易。
其次,API得到了社区开发人员的广泛支持,供应商可基于它构建一个具有配套服务和功能的完整生态系统。
由Amazon web服务与应用(AWS)和Vmware云计算产品提供的API周围已形成庞大的生态系统,其中包括管理工具(如enStratus)、监控和管理工具(如Cloudkickh和RightScale)以及形成其完整云服务的其他服务。
Vmware本身不提供云服务,但是不同的供应商使用Vmware的堆栈和API,特别是vCloud。
例如Terremark和Savvis。
Amazon公司和WMware公司以及Windows Azure都允许用户使用自己的堆栈和API实施内部云,从而使用户能够很容易地在混合云上管理和运行应用程序。
所谓混合云是指由供应商托管,且在公司内部数据中心中运行的云。
以Amazon公司为例,使用AWS启动通过Eucalyptus的API为私有云提供软件堆栈。
业内的一个最新发展是Rackspace公司与美国航天局(NASA)合作,两者协同众多厂商和云供应商在其一个称为OpenStack的项目中对其软件堆栈公开了源代码。
它最有可能被视为行业标准,因此此举将有助于创建一个有望替代Amazon和Vmware生态系统的实际可行标准。
云服务安全性和法规遵从公司考虑实施据云计算的两大障碍依然是安全性与法规遵从。
Zenoss公司在2010年第二季度进行的调查显示,接近40%的受访者在被问及他们对云计算的最大关注问题时都选择了安全性。
而紧随其后的选项是管理,它占受访者的26.5%。
Zenoss的调查结果与其他云计算相关调查的数字是一致的。
而企业真正关注的问题并不是实际的安全威胁,而是他们无法遵守与安全相关的标准,如PCI。
作为回应,当今许多云供应商都在吹嘘和炫耀他们所拥有的SAS-70 II型审计、安全白皮书和其他标准的证书。
正在发展的云供应商Logicworks推出了具有法规遵从的云计算产品,即遵守一级PCI的云产品。
云服务成本一个比较云供应商的简单直接方法似乎就是成本。
问题在于考虑到客户实际使用的资源和支付的费用,在供应商中并不具备可比性。
供应商提供虚拟机(VM)资源,但其内存容量、CPU时钟速度以及其他功能却各异。
此外,实际提供给客户的部件也是虚拟的,这也造成难以对客户实际使用的资源进行度量以及其他同在云中客户如何影响这些资源。
Amazon公司拥有EC2计算部门,Heroku向Dynos提交而其它厂商则创建自己的度量部门。
度量评估不同云供应商成本和性能比的唯一真正可靠方法是使用相同的应用程序对多个供应商的服务进行试验,并比较运行结果。
云计算的安全和管理问题是众所周知的,除此之外,关于云服务的计费也是一个不小的挑战。
云服务供应商们总是喜欢吹嘘说他们的服务使用起来有多么的简单,实际上,广大IT经理们都已发现云计算服务的计费并不简单。
云服务的计费是基于许多因素的,从所需的存储空间,到所使用的时间周期,再到每个月的流量分配,等等这些因素都可能成为计费参考。
实际上还不止这些,一些云服务供应商还会基于SLA之内的一些隐性条款来收费。
为了弄明白一项云计算服务的总费用,用户需要了解供应商账单上的每一项服务要素,以及其计费方式。
服务的计费项目另一个决定服务真正费用的关键因素是所需的服务类型。
对于一些企业而言,所谓的云服务可能只是服务器托管、专用服务器租赁,或是将应用运行在云中。
而对于其它一些企业而言,云服务可能就是基于云的数据备份、业务持续性的维持,或是基本的存储托管。
对于广大用户而言,要弄明白云计算服务最简单的方式就是将注意力放在最主要的服务项目上。
大多数云服务供应商都会将它们的服务分为三个基本类型:云中服务器、云存储、云工作站和云应用。
每一项服务都有其自己的计费方式。
云中的服务器主要分为两种形式:虚拟服务器和物理服务器。
换句话说,你既可以在虚拟服务器(与其他人共享物理硬件)上购买使用时间,也可以在专用服务器(你是该服务器唯一的租户)上购买使用时间。
表1所示的就是云服务的计费方式:整张图片实际上就是在对比不同云服务供应商的服务价格和计费方式。
图中列出的每个供应商都会对一些额外的服务和功能征收额外的费用。
此外,每项服务的价格也会随着协议长短、总的带宽需求或者所需存储规模的大小而有所变化。
在许多情况下,用户是可以和供应商进行讨价还价的。
不同的服务类型并不是说所有的云服务供应商都是一样的,如果你仔细观察一下供应商之间的区别以及他们各自处理用户需求的方式,就会发现这种差别是很明显的。
为了给大家做一个对比,我们挑选了最为知名的三家云架构供应商:GoGrid将负载均衡服务放在其服务器产品当中,而且不收取额外的费用,此外,他们还免费提供20GB的存储空间;Rackspace使用的是一种完全不同的计费机制,随着使用量的增长,他们会降低每十亿字节带宽的费用。
此外,该公司还在一些虚拟服务器上提供免费的备份服务;Amazon的大多数服务随着使用量的增加都提供打折优惠,但是对于存储服务的启用和终止都会收取一定费用。
如果你考虑一下最为简单的云存储服务概念,就会很明显地发现这几种计费方式及供应商业务的区别(图2)。
再次强调一下,这张图只是对比不同供应商的计费方式。
像其它云服务一样,云存储服务的价格也会受到协议时间长短、总的带宽需求或是说所需存储容量大小的影响。
此外,这些服务的价格也有足够的讨价还价的空间。
对于使用其服务器托管服务的用户,GoGrid最初提供20GB的免费存储空间,而且他们只为服务器托管用户提供云存储服务。
独具特色的是,随着用户所购买的存储容量的增加,GoGrid的服务可以提供打折优惠。
GoGrid的云存储服务是以一种定量的方式提供,目前为止还不提供用于启动或停止其它命令的Web服务应用程序接口。
Rackspace试图让它的存储服务计费方式变得尽可能的简单化。
他们对于云存储服务的采购提供按比例增减的模式,随着总量的增加,服务的单价也会有所下降。
此外,如果文件的大小超过250KB,他们不会收取存取费用。
Amazon S3对于已删除数据不进行收费,根据所需存储总量的增加还会提供一定折扣。
对于那些试图将价格稳定下来的公司,他们提供定价合同。
对于一些规模较大的文件传输公司,他们建议使用其输入和输出服务,这样可以节省成本。
理想地讲,云计算服务的计费模式应该和选择所需的存储功能和服务器计算资源没什么差别。
而事实上,大多数IT经理都发现这种理想很难实现。
他们必须仔细去考虑一些“隐性成本”,或是计费标准的变化,从而确定某项服务的真正费用。
更大的挑战来自于一些“非技术”的因素,用户必须考虑到那些独立于谈判条款之外或是隐藏于SLA协议之中因素。
解决这一问题的技巧就是用清晰而又精确的语言将每个合同期内每项服务的总费用写在纸上,这样才能明白真正的总预算金额。
云测试的适用项目
通过云测试的定义我们看出:凡是测试中需要使用的软件工具和环境都可进行云测试,当前适合做云测试的项目或内容大概有:硬件环境:测试软件在不同应用场景下对硬件环境的要求;软件环境:操作系统、数据库、浏览器等,测试软件对不同运行平台的适应性;适应性软件:防火墙及防病毒软件等,测试在安装不同防火墙及防病毒软件时,软件运行可靠性;功能自动化测试:进行软件自动化测试;性能测试:进行软件性能和压力测试。
随着云计算技术的发展,为软件测试服务的各种应用亦将得到发展。
适合做云测试的项目也将不断增多。
雷网主机如何最佳管理云服务性能?
当企业把核心IT系统迁移到私有云或者公有云网络之后,工作并没有结束。
现在,还有一套不同的技术问题需要处理:即如何管理云,以保证企业的投资得到回报,提供所期待的效率和投资回报。
由于今年4月发生的亚马逊EC2(弹性计算云)服务中断事故,云管理和云监视已经变得更加重要。
在那次事故中,IT领域看到了当云环境遇到故障时会出现什么情况,许多公司的业务随着这次断网故障而中断。
最近还发生了一些严重的云中断事故。
IDC分析师Mary JohnstonTurner称,可以得到企业购买的性能是公有云的大陷阱之一。
她在最近对250家个用户公司进行的调查报告中指出,服务等级协议性能担保排在重要性的第二位,仅次于应用程序本身的具体需求。
Turner称,企业非常担心性能。
企业对私有云如此感兴趣的原因之一是因为IT领导者负责为自己的用户得到良好的性能。
他们不准备把这些巨大的责任交给第三方云厂商。
当涉及到云计算的时候,管理软件不再是一个事后考虑的事情;它必须是实施的一部分,每一次做决定的时候都必须要考虑如何最好地把云能力集成到企业的IT架构中去。
软件即服务(SaaS)和基础设施即服务(IaaS)这两种类型的云计算承诺给企业IT任务带来巨大的机会。
如果IT专业人员要走在趋势的前面,他们确实需要学习如何在涉及到SaaS和IaaS的问题时像专家一样讲话。
当涉及到云计算合同的时候,知识是关键,阅读是基础。
她补充说,那不只是一个云问题,而是复合应用的复杂性产生的一个问题。
接下来,这些复合应用将引进到云环境中。
Turner称,这是一个巨大的挑战。
用户需要投资为复合应用和虚拟化环境制作的应用性能管理产品。
现在这是一个完整类别的产品。
这个思路是能够独立地监视应用程序在网络中的性能和在云中的性能,然后能够衡量那个应用程序在什么地方达到了用户的性能要求,是在防火墙内部还是外部。
是全球最大的视频游戏网站之一。
对于该公司负责工程的副总裁DavidTing来说,监视他的公司的云性能是非常重要的,因为这个业务的存亡取决于把该网站的254万用户连接到该网站由广告支持的在线游戏中的能力。
Ting称,“对于我们来说,性能就是金钱,因为观看网页是关键。
我们是由广告支持的,每一次观看网页的计数都能够帮助本公司带来收入。
这是我们密切关注的事情。
” 要使它完全发挥作用,媒体巨头新闻集团旗下的ING娱乐部门使用位于旧金山的NewRelic公司的性能监视工具连续不断地观察它的网站在云中的性能。
Ting称,我们主要依靠这个工具。
对于我们来说,这就是IGN网站的响应时间和每秒处理次数。
随着云部署的扩展跟踪性能 在大约18个月的时间里一直使用NewRelic工具。
它首先把非生产性开发和其它应用迁移到云中以观察它们是如何工作的。
现在,正在把一些新的项目放在云服务器中,包括一个社交媒体栈,这样,该公司就能加强应用程序并且根据需要升级这些应用程序。
此外,计划部署在这个云中的一个应用是这个网络的灾难恢复基础设施。
Ting在谈到该公司的IT系统时表示,这个系统最终将全部迁移到云中。
我们未来要做这个事情的时候必须保证性能的稳定性。
我们正在关注这个事情。
Ting称,NewRelic工具监视能够提供IGN使用其它工具不能提供的性能指标。
这些老式工具进行物理机器监视是很好的,但是,在没有工程团队做大量工作的情况下根本就不能进行应用程序栈监视。
通过观察NewRelic的管理工具,IT员工能够启动更多的基于云的服务器,关闭性能不佳的应用程序实例,然后根据需求增加新的实例以保持用户的响应时间。
采用以前的工具,Ting的团队只能了解正常运行时间,看不到响应时间。
Ting解释说,NewRelic为响应时间提供了巨大的可见性。
这允许IT员工甚至能够在服务器运行的时候采取行动。
例如,我们发现一台Memcached(高性能的分布式内存对象缓存系统)服务器执行的实例性能比这个池中的其它服务器差很多。
在进一步调查之前,我们发现一个内存模块出现了故障。
在Nagios(一种开源的免费网络监视工具)环境中,那台服务器会一直运行到死机。
目前正在使用亚马逊的EC2服务进入云领域。
采用New Relic工具,能够观察这个三层架构的所有的方面,从它的前台到它的数据库再到它的API(应用程序编程接口)层。
这个管理工具帮助保证用户响应时间处于优化状态并且不达到高峰。
Ting说,“我们能够查看什么正在云中运行,使用插件收集数据并且把这些分析结果发回到NewRelic工具。
这些数据将非常详细地告诉你这些服务器组的性能如何。
” “数据量和数据的准确性是非常重要的。
这是我们查看指标的起点和能够使用它做出智能化商务决策的起点。
”Ting说。
除了迁移其IT基础设施之外,一直在探索利用云托管它的100多个网站中的许多网站以便提高性能和正常运行时间。
主要网站包括、、、、和 。
“到目前为止,测试一直是积极的。
我们已经让一些基础设施部件迁移到了云中。
这个事情目前正处在试验阶段。
我们在检查性能。
”Ting说。
使用各种工具 位于旧金山的专业体育和大学体育的粉丝简讯在线出版商BleacherReport一年前在把自己的核心基础设施迁移到云中之后很快就发现了性能监视的重要性。
该公司副总裁SamParnell称,他的公司担心潜在的性能问题,包括可能的延迟问题,因为该公司要按比例增加能量以满足2000万用户的需求和每个月查看5亿次网页的需求。
为了防止出现瓶颈,他购买了大量的工具为这个广告支持的网站监视和管理这个新的云环境。
Parnell表示,“没有任何一个工具能够为我们做一切事情。
我们在不同的层次使用不同的工具,为我们提供全面的监视套件。
到目前为止,没有出现延迟问题。
不过,我们使用这些工具优化系统的各个部分。
” 该公司的工具箱包括一个服务器级的工具Scout。
这个工具允许IT员工查看在主数据库和备用数据库中的工作量是什么样子,以及查看服务器上的处理器利用率和内存消耗。
使用在云服务器中运行的代理程序可以完成这种监视并且报告提醒和状态数据。
这家公司还使用NagiosEnterprises的监视工具和Monit的开源软件工具。
Parnell称,“这些工具肯定有许多是重叠的。
但是,这些工具都有自己擅长的功能。
这是我们一起使用这些工具的原因。
” Bleacher Report还使用Pingdom的ping检测工具以保证各个网站正常运行和在运行很好地运行。
“在监视的每一个案例中,100%的正常运行时间和快速的网页响应速度是非常重要的。
如果人们不能访问这个网站和看到广告,那么,我们就要亏损。
”Parnell说。
这家公司还使用NewRelic的工具监视应用程序性能。
这样,IT人员就能了解哪些网页运行速度快、哪些网页速度慢、内存消耗和处理器使用等性能问题。
实时观察 Parnell称,他的员工不间断地观察监视数据实时到达显示屏上情况。
他指出,关键是利用广泛的产品进行监视。
这样,在出现故障的时候,你就会尽快得到更多的信息以便修复故障。
总的来说,我宁可要过多的数据也不喜欢数据不够。
NewRelic工具能够很好地把重要信息显示在控制台。
这样,你就不必费力地阅读数据。
当你要迅速查看运行状态时,这是有帮助的。
为了实时观察性能,Parnell的团队使用一些大尺寸显示器不断地循环播放不同的报告,以便让这个团队的成员一整天都能看到这些报告。
Parnell解释说,我们不是每一天都整天深入挖掘这些报告。
但是,我们确实监视看起来异常的东西。
当我们需要深入挖掘数据的时候,所有这些工具都为我们提供深入的数据。
监视器屏幕主要由一组负责的工程师观看,特别是在部署新的功能或者在高负荷工作的时候。
另一个需要记住的要点是,云环境和云监视都处在早期阶段。
IT部门需要灵活一些,找到和使用云监视工具,并且要继续寻找更好的新工具。
Parnell称,我们使用Scout工具只有5、6个月的时间。
这个工具工作得非常好。
但是,在5个月之后,其它的工具可能做得更好。
你需要了解市场的脉搏。
这样,你才能跟上新的工具。
新的公司一直在不断地出现。
他说,另一个要记住的事情是,你要不断地监视你的云厂商提供的服务器以保证你总是拥有性能最佳的服务器。
“这是使用云服务的最大好处之一。
使用云服务,你可以通过控制面板放弃速度慢的服务器并且选择另一台服务器。
”监视工具还一直在内部使用以改善网站新功能的开发。
这些新功能都是为Bleacher Report的读者提供的。
“如果一个工程师正在部署一个新功能,我要求他们一定要观察性能并且保证这个新功能不会对其它地方的性能造成不利的影响。
我们继续调整和精选这个系统中的一切东西以保证它尽可能是速度最快的。
如果突然出现一个重要的体育新闻,我们的网络流量会很大。
一切都需要升级。
我们需要能够处理这个情况。
知道你将得到什么和监视什么 Forrester Research分析师JamesStaten称,要得到你的公司确实需要的功能,你必须向你的云厂商提出你的具体要求。
Staten称,最重要的事情之一是透明度,他们将向你提供的性能到底是什么?这包括询问他们允许你直接进行什么水平的监视以及他们向你发送什么记录,这样,你就能够看到正在发生什么事情。
如果云厂商没有向你提供这些东西,你要求他们提供。
Staten称,你与你的云厂商之间的关系的主要部分是管理你的预期。
他指出,你要做的任何性能监视都是你的责任,而不是你的厂商的责任。
如果你自己不能做这种监视,你可以雇用许多公司为你做这个事情。
这些公司包括HyperStratus、KeynoteSystems、惠普、IBM、Accenture以及其它公司。
许多人认为他们的服务级协议包含性能监视,实际上是不包括的。
服务级协议包括可用性,仅此而已。
他补充说,同时,你的公司在云网络中运行的所有的应用程序和服务并非都是重要任务的。
因此,你没有必要监视在云中一切应用程序的性能。
你必须搞清楚重要的应用程序是什么。
端对端的云管理还差很远 IDC分析师Turner称,最后一个要考虑的事情是云性能监视市场仍然很不成熟。
Turner表示,有许多厂商将从路线图的角度向你谈论那个事情,但是,那是不全面的。
今年仍然是主要强调自动化配置。
那将允许真正的端对端的云监视。
她说,随着今年的过去,我想,我们将看到更高级的东西。
随着更多的公司向云中的生产环境过渡,这种监视需求将变得更大。
Turner称,我认为这将是许多机构今年投资的首选领域。
她预测称,由于需要的高级程度,可能还需要一两年时间才能达到那个程度。
Staten称,当然,所有的监视需求都有相互矛盾的地方。
当你付费进行监视以确保你将得到合同规定的性能的时候,你首先可能损害你的公司采用云服务节省的成本。
如果你花许多钱解决延迟问题,那么,你在云服务中也应该花许多钱吗?