开始新对话

未解决

此帖子已超过 5 年

Community Manager

 • 

7.1K 消息

781

2017年7月30日 19:00

水冷故障导致5万网站被迫关闭,这起事故我们应该学到什么

墨菲定律说:凡是可能出错的事必定会出错。而位于法国巴黎的一座数据中心就因为侥幸心理,导致5万家网站被迫关闭24小时。事故发生后,该公司公布了调查报告,事情究竟是怎么发生的?我们一起来看。


事故发生

事故发于巴黎的一座数据中心,由全球第三大互联网托管商OVH公司运营。建造设计之初,这座数据中心就运用了水冷系统。然而6月29日晚6:48,其中一个冷水塑料管发生破裂,液体直接流出,导致了事故的发生。

按理来说,采用水冷的数据中心在设计时都会考虑到液体泄露的可能,所以即使发生泄露也能有足够的应对措施,那么这次究竟是怎么回事呢?

原来,真正受到影响的并不是位于泄漏点的服务器,而是一台存储设备,由于该设备并没有采用水冷系统,且两者的距离很近,受到了影响,从而引发电气故障,导致该设备彻底关闭。巧的是,这台存储设备正好是EMC VXN存储阵列(躺着也中枪...)。

事故分析中,OVH承认将两种采用不同冷却机制的服务器安装在同一机房之内是个错误。“我们做出了错误的判断,我们本应为这些存储设施提供最大程度的保护。”

坏事成双

悲剧的是,出现故障的不止水冷系统,语音报警系统也一同出了问题。泄露发生后,位于机架内的传感器立刻发现了液体泄露情况,并将这一信息发送到了语音警报系统。


不巧的是,语音报警系统正在进行更新,导致报警出现延迟。最终,工作人员在泄露发生后的11分钟才赶到现场。

(图片与内容无关)

事故抢救

工作人员赶到后,立即采用了两种方案进行抢救。

Plan A:尝试重启该故障阵列,但由于触发了安全机制而无法启动,并且磁盘数据无法访问。

Plan B:使用一套日备份方案,为了完成数据恢复,OVH公司需要:

  • 在P19数据中心之内从现有服务器上找到充足的可用存储空间。
  • 迁移整套支持服务运行环境(即负责运行数据库的虚拟机、相关操作系统、其特定软件包以及配置文件)。
  • 将数据迁移至新的托管基础设施当中。

OVH公司此前虽然虽然对这一流程进行过基础测试,但却从未以高达5万个网站的规模进行。最终,直到次日晚23:40,整个恢复工作才得以完成,所有受影响的网站恢复上线,但部分用户原本托管的MySQL 5.1实例被恢复成了MySQL 5.5版本。

吸取教训

从这次事故中,我们应该学到......

  1. 不要心存侥幸,采用不同冷却机制的设备应分开放置。
  2. OVH公司虽然进行了恢复,但恢复流程并不顺利,因此面向关键性的系统组件应建立完善的灾难恢复计划与测试方案。
  3. 应定期进行审查以配合系统组件的更换。
  4. 除非对更新进行严格测试,否则不要轻易对关键性系统组件加以更新。

最后,本次事故虽然EMC VNX躺着也中枪,但是如果OVH采用连续数据保护方案,那么造成的影响应该会更小一些。

#IWork4Dell

请您将合适的回复标记为“接受的回答”,并为喜欢的帖子“点赞”。这对我们非常重要!

没有回复!
找不到事件!

Top