阿里云故障之殇:安全的云应成为全力以赴的目标

2016-10-14 11:27:00 作者:BIAN 分类 : 比特网

  在日新月异的科技发展进程中,任何新技术的发展都会变得令人瞩目,一旦发生任何的问题,也会立刻成为人们所关注的焦点。10月11日的一次故障,让阿里云再次成为业界关注的焦点。

  阿里云再曝故障引关注

  10月11日下午,阿里云华东1区部分服务器发生故障,导致网络上部分网站无法运行。

  从一些社交网络上获得的消息来看,当日,包括煎蛋网、斑马鸡早餐、以及各类论坛网站等均表示业务无法访问。而对于诸多受到影响的用户们而言,只能焦急地等待阿里云的恢复。

  根据阿里云的官方通报描述,此次所发生的故障是:阿里云华东1地域可用区B部分ECS服务器出现IO HANG的问题,故障发生的时间是10月11日下午16:21分左右。

  而从这份官方通报的信息来看,自故障发生,阿里云一直都在进行“紧急处理”。直至11日晚19:57的更新通报,才表明故障问题“已陆续恢复”。至此,故障持续时间已达三个半小时左右。

  阿里云关于“华东1地域可用区B部分ECS服务器IO HANG恢复通报”

  而这次故障在许多云服务专家看来,已属于TOP级别故障。简单来说,该故障是数据读写能力出现故障,导致服务瘫痪,部分用户无法连接云服务。

  对于将业务部署在阿里云上的用户而言,这样的故障影响无疑是巨大的:公司业务整个数据库都存在阿里云的服务器中,磁盘读写出现故障就意味着数据无法读出,同时还很有可能造成数据的丢失。特别是对于一些将业务全套部署在阿里云,并且没有异地备份的中小企业而言,无论是业务中断还是数据丢失,其造成的影响都是无法想象的。

  “云”的脆弱并非阿里云专利

  目前,对于此次故障发生的原因,阿里云方面还未给出解释。之所以说此次故障让阿里云“再次”成为业界关注的焦点,是因为对于阿里云来说,这已经不是其第一次出现这种“掉链子”的情况了:

  2016年7月6日上午10点22分,阿里云华北2地域可用区A由于网络设备出现异常,导致部分产品访问受到影响。故障于11点16分恢复。

  再往前追溯,2015年9月1日,阿里云因为云盾安骑士产品升级触发bug,导致了用户ECS里的部分正常文件被误隔离,导致大规模故障,客户的所有基本命令都不能运行。

  2015年6月21日,阿里云香港节点9点30分左右突然全线崩溃,故障在当晚22点左右才逐渐恢复,历时12小时。

  频频而发的故障,让我们不由得在面对“云”时望而生畏。而云计算的脆弱,却也不仅仅只是阿里云所存在的问题。对于其他云服务供应商、甚至于像Amazon AWS、微软Azure等这样国际上的云服务巨头而言,也同样面临这样的困境。仅在过去的2015年,所发生的类似的云服务故障就不在少数:

  2015年6月6日,青云QingCloud广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,全部硬件设备意外关机重启,造成QingCloud官网及控制台短时间无法访问,部署与GD1的用户业务中断2个半小时。

  2015年8月10日,AWS遭遇了罕见的瘫痪,服务中断导致很多热门网站中断。同年9月20日,美国东海岸亚马AWS服务也出现故障,5小时后才恢复服务。

  微软Azure在2015年的故障也令人记忆犹新: 3月16日,微软有两项Azure公有云服务中断了2个多小时,美国中部客户受到影响; 3月17日,故障恢复还未坚持24个小时,就发生了第二次故障,虚拟机、网站和其他云服务瘫痪数天时间,这一次影响到了客户更为密集的美国东海岸,根源是存储系统发生的故障。

  而Google Compute Engine也在2015年2月18日和19日在多个区域出现了故障,中断1小时。而在此后的8月13日到8月17日,又因雷击导致一系列技术故障,最终造成一些I/O错误,Google Compute Engine实例的磁盘上出现了数据丢失。

  无论是操作故障、云环境中的不可抗因素,抑或是云计算基础设施中所出现的问题,云计算脆弱的一面已并非是阿里云的专利,而是当下云服务供应商需要共同应对的挑战。

  “云计算的安全”同样重要

  不可否认的是,云计算已经成为一股无法阻挡的科技发展潮流。云计算的落地已使得越来越多的企业不但节省了资金的开支,还加快了业务发展进度,全面云化已是大势所趋。

  但同时,云计算也令这一时代中的IT服务变得非常集中,对于大型互联网服务供应商、以及依赖云服务而开展业务的许多中小企业而言,一旦云出现问题,带来的影响将非常之大。如果因为云服务故障而影响了关键业务的进行,所造成的资金、以及公司信誉等多方面的损失,很可能是后续的金钱或服务赔偿所远远不能够弥补的。

  一直以来,谈到“云计算”的安全问题,我们往往首先考虑的是上云之后的数据安全、运营安全等层面的问题。与此同时,我们还需意识到的是:云计算作为分布式系统,具有高可用的优势。但从近年来阿里云等云服务商所发生的一系列事故看来,局部故障扩散造成全局性影响,以及基本的可靠性能力不足,这将影响到整个系统,成为阻碍云计算发展的桎梏。

  特别是对于企业关键业务而言,在云化转型中,可靠性必然始终置于最优先位置,一个可靠的系统设计、稳定的企业级云平台、和一个完善的云灾备方案是必不可少的要素。目前看来,像阿里云这样走在云服务前列的供应商,每年都要发生几次基础设施运转故障的问题,可见对于全面落地中的云计算而言,云计算底层能力建设正变得愈发关键和重要。

  我们所要关注的,不仅仅只是“安全的云计算”,还应有“云计算的安全”。

  可喜的是,云计算的安全问题已被业界广泛关注。例如,即将颁布的、由公安部信息安全等级保护评估中心主导制定的信息安全技术标准已经将云计算安全纳入其中。据悉,新标准将包含对云计算相应的基本要求、设计要求、测评要求等等。届时,云安全的建设将有望全面纳入规范化轨道。

  结语

  任何新技术不可避免地会经历发展过程中的挫折与阵痛。对云计算而言,我们不应让安全成为其发展的制约因素。正如在每次的故障发生之后,阿里云在对广大用户的回应中所提到的一句话:“云计算是个艰巨的长跑,我们会始终将产品稳定性作为最重要的目标,全力以赴。”而我们更希望看到的是:这将不再是一句空洞的口号,而是一个真正为此全力以赴的目标。

* 本文为ChinaByte比特网原创内容,版权所有,转载请注明出处和原文链接,未经授权请勿用于商业用途。

芥末视频

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。