引言
在当今互联互通的商业环境中,企业比以往任何时候都更依赖于其 IT 系统和数据。任何意外事件,如自然灾害、网络攻击或硬件故障,都可能对您的业务运营造成毁灭性影响。因此,实施全面的灾难恢复计划至关重要,以便在灾难发生时恢复业务并最大程度地减少损失。
基于云的灾难恢复是保护您的业务免受意外事件影响的有效且经济高效的方法。通过将您的数据和应用程序复制到云平台,您可以确保即使发生主要的中断,您的企业也可以继续运行。
基于云的灾难恢复的
实施基于云的灾难恢复策略
实施基于云的灾难恢复策略涉及以下步骤:
- 评估风险: 确定您的业务面临的潜在威胁,并根据这些风险选择合适的灾难恢复策略。
- 选择云提供商: 选择一家提供可靠的灾难恢复服务且具有良好声誉的云提供商。
- 设计灾难恢复计划: 制定全面的灾难恢复计划,概述在发生灾难时要采取的步骤。
- 实施灾难恢复解决方案: 根据您选择的策略实施基于云的灾难恢复解决方案。
- 测试和验证: 定期测试您的灾难恢复计划以确保其有效性,并在必要时进行更新或调整。
云的灾害有哪些
基于云的灾难恢复并非没有风险。一些潜在的灾害包括:
- 云服务中断: 云平台可能会因网络攻击、硬件故障或自然灾害等原因而中断。
- 数据丢失: 尽管云平台通常提供出色的数据保护,但数据丢失仍然是可能的。确保您的云提供商有强有力的备份和恢复政策。
- 成本: 基于云的灾难恢复服务可能会产生持续成本,例如云存储和计算费用。
结论
基于云的灾难恢复策略是保护您的业务免受意外事件影响的有效且经济高效的方法。通过实施全面的灾难恢复计划并选择可靠的云提供商,您可以确保您的企业即使在最严重的中断中也可以继续运行。重要的是要意识到基于云的灾难恢复的潜在风险,并采取措施减轻这些风险。
云存储的优点
云存储的优点主要包括高可扩展性、易于访问与共享、成本效益、强大的数据安全性以及灵活的灾难恢复能力。
首先,云存储提供了极高的可扩展性。
传统的本地存储解决方案往往受限于物理硬件的容量,当数据需求增长时,可能需要购买和安装更多的存储设备。
而云存储则能够根据需求动态地分配存储空间,企业或个人用户只需按需支付所使用的存储容量,无需进行大量的前期投资。
这种弹性扩展的特性使得云存储成为处理大量数据或应对突发数据需求的理想选择。
其次,云存储使得数据访问和共享变得简单方便。
通过云服务提供商的在线平台,用户可以从任何地点、任何设备访问他们的数据,只要有互联网连接即可。
这种跨平台、跨设备的兼容性极大地提高了数据的可用性和便携性。
同时,云存储还提供了灵活的共享机制,使得多个用户或团队可以轻松地协作和共享文件,提高了工作效率。
再者,云存储在成本效益方面也具有显著优势。
使用云存储,用户可以避免购买和维护昂贵的硬件设备,减少了资本支出和运营成本。
此外,云存储服务提供商通常会提供多种定价模型,用户可以根据自己的使用情况和预算选择合适的方案,进一步优化成本结构。
此外,云存储还提供了强大的数据安全性。
云服务提供商会实施严格的安全措施,包括数据加密、访问控制、安全审计等,以保护用户数据的安全性和隐私性。
相比之下,本地存储可能更容易受到物理损坏、盗窃或恶意攻击的风险。
通过将数据存储在云端,用户可以享受到更高级别的安全保障。
最后,云存储还具备灵活的灾难恢复能力。
在面临自然灾害、硬件故障或人为错误等意外情况时,云存储可以提供快速的数据恢复服务。
由于数据在云端有多个备份,并且可以在不同的地理位置进行冗余存储,因此即使发生灾难性事件,用户也可以迅速恢复数据,确保业务的连续性和稳定性。
哪些原因会导致数据中心断网
断网类型一:系统故障典型事件1:亚马逊AWS平安夜断网故障原因:弹性负载均衡服务故障2012年12月24日,刚刚过去的圣诞节平安夜,亚马逊并没有让他们的客户过得太平安。
亚马逊AWS位于美国东部1区的数据中心发生故障,其弹性负载均衡服务(Elastic Load Balancing Service)中断,导致Netflix和Heroku等网站受到影响。
其中,Heroku在之前的AWS美国东部区域服务故障中也受到过影响。
不过,有些巧合的事情是Netflix的竞争对手,亚马逊自己的业务Amazon Prime Instant Video并未因为这个故障而受到影响。
12月24日,亚马逊AWS中断服务事件不是第一次,当然也绝非最后一次。
2012年10月22日,亚马逊位于北维吉尼亚的网络服务AWS也中断过一次。
其原因与上次相似。
事故影响了包括Reddit、Pinterest等知名大网站。
中断影响了弹性魔豆服务,其后是弹性魔豆服务的控制台,关系数据库服务,弹性缓存,弹性计算云EC2,以及云搜索。
这次事故让很多人认为,亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。
2011年4月22日,亚马逊云数据中心服务器大面积宕机,这一事件被认为是亚马逊史上最为严重的云计算安全事件。
由于亚马逊在北弗吉尼亚州的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
亚马逊官方报告中声称,此次事件是由于其EC2系统设计存在漏洞和设计缺陷,并且在不断修复这些已知的漏洞和缺陷来提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。
2010年1月,几乎6万8千名的用户经历了至少1个小时的宕机。
由于自身数据中心的系统性错误,包括备份在内的全部服务发生了短暂瘫痪的情况。
这也露出了不愿公开的锁定策略:旗下的PaaS平台、不能在之外使用。
所以一旦出现问题,同样会出现问题。
所以服务发生较长时间中断,问题将变得很棘手。
断网诱因二:自然灾害典型事件1:亚马逊北爱尔兰柏林数据中心宕机故障原因:闪电击中柏林数据中心的变压器2011年8月6日,在北爱尔兰都柏林出现的闪电引起亚马逊和微软在欧洲的云计算网络因为数据中心停电而出现大规模宕机。
闪电击中都柏林数据中心附近的变压器,导致其爆炸。
爆炸引发火灾,使所有公用服务机构的工作暂时陷入中断,导致整个数据中心出现宕机。
这个数据中心是亚马逊在欧洲唯一的数据存储地,也就是说,EC2云计算平台客户在事故期间没有其他数据中心可供临时使用。
宕机事件使得采用亚马逊EC2云服务平台的多家网站长中断达两天时间之久。
典型事件2:卡尔加里数据中心火灾事故故障原因:数据中心发生火灾2012年7月11日卡尔加里数据中心火灾事故:加拿大通信服务供应商ShawCommunicationsInc位于卡尔加里阿尔伯塔的数据中心发生了一场火灾,造成当地医院的数百个手术延迟。
由于该数据中心提供管理应急服务,此次火灾事件影响了支持关键公共服务主要的备份系统。
此次事件为一系列政府机构敲响了警钟,必须确保及时的恢复和拥有故障转移系统,同时结合出台灾害管理计划。
典型事件3:超级飓风桑迪袭击数据中心故障原因:风暴和洪水导致数据中心停止运行2012年10月29日,超级飓风桑迪:纽约和新泽西州的数据中心都受到了此次飓风的影响,所带来的恶劣影响包括为曼哈顿下城地区的洪水和一些设施的停机,周围地区数据中心发电机运行失常。
飓风桑迪所带来的影响超出了一般单一的中断事故,为受灾地区数据中心产业带来了规模空前的灾难。
事实上,柴油已然成为了数据中心恢复工作的生命线,作为备用电源系统接管了整个地区的负荷,促使特别措施,保持发电机的燃料。
随着眼前的工作重点逐步转移到灾后重建,我们有必要长期就数据中心的选址、工程和灾难恢复进行探讨,这一话题可能将持续几个月,甚至几年。
断网诱因三:人为因素典型事件1服务中断事故故障原因:服务供应商执行断路器操作顺序不正确造成的UPS关闭2012年7月28日停运事件:人为错误通常被认为是数据中心停机的主导因素之一。
7月中断事件造成 1100名客户服务中断就是一个例子。
停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护,服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。
首席执行官ArtZeile说。
没有任何重要的电力系统或备用电源系统出现故障,完全是一种人为的错误造成的。
典型事件2:微软爆发BPOS服务中断事件故障原因:微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的2010年9月,微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。
这是微软首次爆出重大的云计算事件。
事故当时,用户访问BPOS(Business Productivity Online Suite)服务的时候,如果使用微软北美设施访问服务的客户可能遇到了问题,这个故障持续了两个小时。
虽然,后来微软工程师声称解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。
微软的Clint Patterson说,这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。
BPOS软件中的离线地址簿在非常特别的情况下提供给了非授权用户。
这个地址簿包含企业的联络人信息。
微软称,这个错误在发现之后两个小时就修复了。
微软称,它拥有跟踪设施,使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。
断网诱因四:系统故障典型事件1:GoDaddy网站DNS服务器中断故障原因:系统内一系列路由器的数据表造成的网络中断2012年9月10日GoDaddy网站DNS服务器中断:域名巨头GoDaddy是一家最重要的DNS服务器供应商,其拥有500万个网站,管理超过5000万的域名。
这就是为什么九月10日中断事故会是一个2012年最具破坏性的事件。
一些炒作甚至认为,此次长达6个小时的中断事件是由于拒绝服务攻击的结果,但GoDaddy后来表示,这是路由器表的损坏数据造成的。
服务中断不是由外部影响造成的。
GoDaddy的临时首席执行官史葛瓦格纳说。
这不是黑客攻击也不是一个拒绝服务攻击(DDoS)。
我们已经确定了服务中断是由于内部的一系列路由器的数据表造成的网络事件损坏。
典型事件2:盛大云存储断网故障原因:数据中心一台物理服务器磁盘损坏2012年8月6日晚上8:10,盛大云在其官方微博上发布一则因云主机故障致用户数据丢失事件的公开声明。
声明说到:8月6日,盛大云在无锡的数据中心因为一台物理服务器磁盘发生损坏,导致个别用户数据的丢失。
盛大云已经在尽全力协助用户恢复数据。
对于因为一台物理服务器磁盘发生损坏,导致个别用户数据的丢失的情况,盛大云技术人员给出自己的解释:虚拟机的磁盘有两种生产方式,一种是直接使用宿主机的物理磁盘。
这种情况下,如果宿主机的物理磁盘发生故障,云主机不可避免会造成数据丢失,这也是本次事件产生的原因;另外一种是使用远程存储,也就是盛大硬盘产品,这种方式实际上是把用户的数据存到了远程的一个集群里,并同时做了多份备份,即使宿主机出故障也不会影响到云主机的数据。
因为物理机的损坏很难避免,为了避免您遇到意外损失,我们建议您在云主机之外,也做好数据备份。
典型事件3:Google App Engine中断服务故障原因:网络延迟Google App Engine:GAE是用于开发和托管WEB应用程序的平台,数据中心由google管理,中断时间是10月26日,持续4小时,因为突然变得反应缓慢,而且出错。
受此影响,50%的GAE请求均失败。
谷歌表示没有数据丢失,应用程序行为也有备份可以还原。
为表歉意,google宣布11月份用户可以google表示他们正在加强其网络服务以应对网络延迟问题,我们已经增强了流量路由能力,并调整了配置,这些将会有效防止此类问题再次发生。
断网诱因五:系统Bug典型事件1:Azure全球中断服务事故原因:软件Bug导致闰年时间计算不正确2012年2月28日,由于闰年bug导致微软Azure在全球范围内大面积服务中断,中断时间超过24小时。
虽然微软表示该软件BUG是由于闰年时间计算不正确导致,但这一事件激起了许多用户的强烈反应,许多人要求微软为此做出更合理详细的解释。
典型事件2:Gmail电子邮箱爆发全球性故障事故原因:数据中心例行性维护时,新程序代码的副作用2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。
谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
典型事件3:“5.19断网事件”事故原因:客户端软件Bug,上网终端频繁发起域名解析请求,引发DNS拥塞2009年5月19日的21:50,江苏、安徽、广西、海南、甘肃、浙江等六省用户申告访问网站速度变慢或无法访问。
经过工信部相关单位调查通报称,此次全国六省网络中断事故,原因是国内某公司推出的客户端软件存在缺陷,在该公司域名授权服务器工作异常的情况下,导致安装该软件的上网终端频繁发起域名解析请求,引发DNS拥塞,造成大量用户访问网站慢或网页打不开。
其中,DN SPod是国内知名的域名解析服务商之一的N SPod公司,服务数家知名网站的域名解析服务。
此次攻击导致DN SPod公司所属的6台dns域名解析服务器瘫痪,直接造成包括暴风影音在内的多家网络服务商的域名解析系统瘫痪,由此引发网络拥塞,造成大量用户不能正常上网。
工信部指出,此次事件暴露出域名解析服务成为目前网络安全的薄弱环节,指示各单位要加强对域名解析服务的安全保护。
小结 启用云服务的公司,很大程度是考虑这种服务可以更加编辑,性价比高。
但是,这样的考虑如果是以降低安全性作为代价,估计很多公司老大不会同意。
层出不穷的云服务断网事件引起了云端安全性的担忧。
目前来看,解决的办法可以从几个角度出发,对于企业级客户来说,务必在采用云服务的同时定期备份云端的数据,拥有第二套解决方案按,以备不时之需。
而对于云服务提供商来说,既然各种断网事件是在所难免的,那就必须思考一个对策,将自己用户的损失降到最低,对断网事件的响应效率要提高。
政府部门则具有监督和提醒的职责,云服务相关的法律法律要相继出台和不断完善,并且提醒用户百分之百可靠的云计算服务目前还不存在。
如何保护企业业务的关键数据?企业预防数据灾难的12种方法
当不可预估的灾难降临时,如何保护企业业务的关键数据?对于这个问题没有一个万能的办法,但是我们可以采取一些措施来保护重要的文件和应用程序。
虽然大多数IT主管和数据管理专家承认没有万全的安全解决方案来保护和恢复数据,但大连航远科技发展有限公司一致认为,企业应对数据灾难的预防应该组织采取一些必要的步骤。
那么,在重要文件和应用程序发生灾难时,企业应该采取哪些必要的预防措施呢?这里盘点了十二个由数据存储、数据管理和灾难恢复专家们提出的意见。
1. 进行数据评估
进行数据评估,可以帮助你了解企业中的高价值数据资产–你的客户信息和其他敏感数据,哪些文件被大量使用,以及谁在使用它们,与哪个部门有关。
使用情报和数据分类,你可以更好地考虑哪些数据需要优先进行灾后恢复,以及哪些用户需要进行访问。
根据80/20准则,并不是所有的数据都同样重要。
坦白地说,如果要确保每一条数据保持可用,可能会付出昂贵的代价。
事实上,其中大部分数据不涉及关键的业务功能。
通过应用80/20规则,一个公司可以将关键数据和应用程序分层级,并决定哪些20%需要获得至关重要的保护。
2. 与可信的伙伴合作,对数据/系统防灾
拥有一个有经验的合作伙伴可以确保你的存储和灾难恢复(DR)解决方案满足业务的需要并符合你的IT部门的能力。
可以考虑集成设备解决方案来减少复杂性,使用远程管理备份服务以减少运营影响和风险,根据已有设置和云恢复选项考虑内部网站和DR供应商。
3. 定义可接受的恢复时间,选择合适的存储介质想想你需要以多块的速度恢复数据.最便宜的方法是离线,使用磁带和重复删除。
你需要等待几天的时间来恢复数据。
理解等待数据恢复时间的临界值,从而确定使用哪种存储介质–磁盘或是磁带?云还是本地?–找到适合你公司的方式。
大连航远科技发展有限公司等许多公司认为一个合理的恢复点目标(RPO,主要是指业务系统所能容忍的数据丢失量)是24小时。
如果业务真的失去了这些时间/数据量,产生的影响可能会是实际任何灾难恢复解决方案成本的好几倍。
找到一个解决方案,该方案能够提供连续数据保护与以秒为单位的RPO以及以分钟为单位的恢复时间目标(RTO)。
4. 创建一个灾难恢复计划,并进行测试
制定一个书面的灾难恢复计划。
很明显,面对复杂的旧有的复制和灾难恢复方法,人们很容易忘记灾难恢复中最重要的方面。
因此,请制定一个书面的灾难恢复计划。
在理想世界里,人们可以从一个单一的管理界面管理各种测试,从复制、管理、保护组、故障恢复到故障转移。
为复制制定专门的服务水平协议,创建虚拟保护组,选择需要保护的虚拟机等等。
从人为错误到组件失败再到自然灾害,考虑最有可能威胁到你的业务的风险。
考虑具有成本创造性的方式来保护你的数据在地理上远离这些存在威胁的地方。
可能需要访问第二个数据中心或基于云计算的策略,同时一定要顾及到基础设施中的所有服务器(如Windows、Linux和IBM在物理虚拟和云平台上运行的AIX)。
你的解决方案必须具备非现场保护功能保护所有服务器类型。
然后多次测试这个计划,以确保它是成功的。
测试能检测所有的差异。
它将帮助CIO们发现工作计划中的任何缺陷,并确保他们在数据发生泄露或发生灾难时做好了准备。
5. 确保正确地加密敏感数据
有效的数据防灾所需的是要将加密数据执行备份。
对动态或静态的加密数据进行全面的备份,可以防止未授权用户访问和有效减少数据的曝光。
对于注重安全的组织,必须遵循规章制度来维护敏感数据的安全。
通过加密,可以预防安全漏洞,消除媒体热议引起的名誉和利润损失。
如果你使用一个基于云的解决方案,确保该过程已经经过审查并且确保加密密钥牢固。
6. 定期备份快照数据
如果你还没有设置自动备份,任何策略都无法有效工作。
不管是你的企业数据中心,还是DR站点或者云,一定要确保所有的关键数据按照计划进行备份。
这可以防止业务由于停机而发生灾难。
进行真正的快照备份,而不只是RAID镜像或数据库副本。
如果某人或某事有意或无意发出命令覆盖或删除数据,你的RAID控制器或数据库复制将彻底删除数据。
移动介质(磁带)的优点是,它不会发生意外事件,除非有人物理操作。
7. 确保关键应用程序也可以访问
如果你想保证业务在停机时间继续运行,只保护数据是不够的。
确保关键应用程序可以在云里进行虚拟化,这样你的员工能够保持生产力。
8. 不要忽视笔记本电脑
大多数灾难恢复计划的重点是保护数据中心,虽然数据中心的安全至关重要,根据Gartner,几乎三分之二的企业数据都放在数据中心外。
例如笔记本电脑,弹性远不如数据中心的服务器和磁盘阵列,而且容易丢失或被盗。
因此很有必要将笔记本电脑等类似设备放到你的DR计划里。
9. 遵循3-2-1规则
如果一个企业想要真正具备数据抗灾害能力,需要遵循3-2-1规则:三份数据备份,存储在两种不同的媒体中,其中一个异地存储。
依据3-2-1规则,IT可以消除任何单点故障。
例如,如果企业依赖SAN快照(非常适合经常备份),IT需要为这些快照创建备份,由此获得多个备份,其中至少有一个放在异地。
10. 进行异地备份,并存放在安全位置
到底有多异地取决于你对风险的估量和担心。
如果你的数据中心是在San Jose,大地震将摧毁你所有的基础设施。
因此最好在San Jose以外的地方储备备份。
所以,要考虑当地存在的潜在威胁并适当地做出计划。
大连航远科技发展有限公司可提供重要文件定期备份等服务:对于客户电脑内比较重要的资料, 如:合同文档、资料等,我们提供多种备份方式,例如使用移动硬盘、磁带机、CD-R、备份服务器。
使备份数据完全与本机分离,实现真正意义的异地备份功能(存储备份、容灾),真正保证了数据资料的绝对安全性; 操作系统备份:运用多种方式,将办公用机的操作系统以及基本系统数据进行安全备份,例如Ghost备份、影子系统等,即使电脑出现故障,也能快速将电脑内的各种数据完好的恢复。
11. 在安全的云中存储数据
当前环境中,保护企业数据最安全的一种方法就是将数据到托管到云环境中。
实际上就是把你的网络放到托管的云环境,然后按需交付。
你的供应商会提供安全、更新、冗余、故障转移和业务连续性的责任和义务。
现在云存储提供商提供安全、高可用性服务以及成熟的云网关。
公司可以通过多个云存储提供商提高服务和地理冗余的备灾。
云存储通过避免使用过时的磁带和异地存储方法,改善了备份成本,提升了性能和显着降低了恢复点目标(RPO)。
12. 测试恢复,并再次测试
如果你不能恢复到测试阶段,世界上所有的备份都不能拯救你。
所以,测试然后再测试。
每周进行随机的恢复。
进行灾难恢复测试并审核你的数据池。
保证总是可以恢复你的数据。