【51CTO精选译文】雷暴、洪水、车祸和失灵的转换开关,这些是导致2010年最严重的数据中心停运事件的几个罪魁祸首。Twitter和Facebook等社交媒体网站以及免费托管服务网站也遇到过多起重大的停运事件。但是电子商务服务网站在2010年也发生了至少四起严重停运事件,一些事件导致金额多达成千上万美元的交易受到了影响。还有些事件导致政府服务停运数天。下面看一下2010年与商家有关的几大停运事件,另外列举了几起社交媒体停运事件。
1月19日:暴风雨摧垮圣何塞数据中心:几场暴风雨摧垮了太平洋煤气电力公司(PE&G)为NaviSite数据中心提供的市电系统后,该数据中心遭遇停电,因而导致使用电子港湾网站ProStores服务来运营电子商务网站的众多商家出现长时间无法使用服务的情况。后来,NaviSite采取了措施,全面改建了其在圣何塞的数据中心的浪涌抑制系统,该系统之前未能有效地保护自动转换开关(ATS)里面的继电器保险丝免受浪涌破坏。
3月31日:交换中心闹水灾,英国电信服务遭中断:英国电信公司在伦敦帕丁顿区的一个交换中心遭遇了严重水灾,导致其在伦敦部分地区的电信服务和支付网络中断,一些地区几天后才恢复如初。
5月6日:金融网站因市场暴跌而出现网速减慢:在去年访问流量猛增引起的最引人注目的停运事件中,由于5月6日那天“闪电崩盘”,几大股市指数骤然暴跌,几大知名互联网金融门户网站遇到了性能问题。其中包括网上人气最旺的金融信息网站雅虎财经(Yahoo Finance):当道琼斯平均指数在东部标准时间下午2点至3点的短短几分钟内狂跌700点之际,许多用户楞是访问不了雅虎财经网站。
5月11日:汽车碰撞事故引发亚马逊停电:一辆汽车撞上亚马逊其中一个数据中心附近的一条电线杆后,由于转换开关无法顺利地从市电切换到数据中心的发电机,结果该公司的弹性计算云(EC2)云计算服务的几个客户无法正常使用服务。虽然这起事故仅仅持续了一个小时,但这已是EC2服务在一周内出现的第四次停运。
6月1日:总水管断裂导致达拉斯数据中心进水:一条90码长的总水管破裂后,导致达拉县档案大楼地下室进水,而地下室里面放着支持建在档案大楼第五层的数据中心的不间断电源(UPS)系统及其他电气设备,结果达拉斯县的IT系统停运了三天多。该县没有一个备用数据中心,尽管明明知道要是没有备用数据中心,可能会出现服务中断。
6月16日:停电事件导致Intuit网站停运24小时:数据中心在一次日常维护过程中发生的停电事件导致Quickbooks.com及Intuit的其他网站停运时间超过一天。这次停运对Intuit的主机托管小企业客户来说后果严重,它们大多数不是无法访问自己的网站,就是无法正常处理交易。
6月29日:亚马逊网站出现停运:亚马逊的主零售商店很少出现停运,这是一件好事,因为它每小时可以带来约175万美元的收入。但是在6月29日那天,亚马逊网站却停运了大约三个小时,原因是“网络延迟”。
8月27日:计算机停机妨碍了弗吉尼亚州的服务:由于弗吉尼亚州建在切斯特菲尔德的一个数据中心出现了故障,结果该州的许多关键服务陷入瘫痪。220多台服务器停止运行,导致该州至少24个政府机构得不到全面的IT支持。一些机构(尤其是机动车辆管理部门)在之后数周都遇到了这个问题。
9月13日:大通曼哈顿银行网站出现严重停运:第三方供应商的数据库软件在登录过程中出现损坏后,大通曼哈顿银行(Chase)的网站突然崩溃,近三天无法正常访问网站,无法使用网上账单支付服务。大通曼哈顿银行称,这次停运导致金额超过1.32亿美元的转账被延迟处理,并主动表示会补偿客户在账单支付方面的滞纳费。
10月29日:硬件故障导致Paypal网站停运:一个网络硬件故障引发了PayPal网站出现停运,结果数百万的商家无法处理网上交易。除了硬件故障外,更要命的是,将流量转换到另一个数据中心时也遇到了问题,导致支付处理服务停运了大约90分钟。
11月4日:转换开关失灵害得iWeb客户束手无策:蒙特利尔的主机托管提供商iWeb的其中一个数据中心附近发生了一场大火,于是这家公司将该数据中心的供电系统切换至发电机,结果这家公司的大约3000台服务器出现了停运。虽然所有三台发电机都能正常启动,但其中一个转换开关出现了故障。一小时后才恢复供电,但一些客户遭遇停运的时间长得多。
社交媒体停运事件:
虽然商家的停运往往与设备故障和自然灾害有关,但社交媒体和主机托管网站遇到的多起停运事件却与程序错误和配置失误有关。简单列举几个案例:
3月25日:维基百科的数据中心温度过高:在线百科全书维基百科在欧洲的数据中心出现散热问题,导致温度过高,引起服务器关机,因而该网站被迫停运。这个问题最初只影响了欧洲的欧洲百科用户,但是当维基媒体基金会(WikiMedia)将系统切换到建在美国坦帕市的数据中心的工作遇到不顺时,主要的英文维基百科网站也受到了影响。
6月11日:错误的代码改变导致1000万个博客遭到破坏:当一处代码改动覆盖了其博客选项表中的关键选项后,博客托管服务网站WordPress.com遭到了严重停运。大多数网站似乎停运了一个小时左右,但约六个小时过后, WordPress.com的工作团队才发帖称,网站运行“恢复如初”。
6月16日:世界杯期间创记录的流量让Twitter不堪重负:世界杯足球赛期间流量猛增,远远超出了Twitter内部网络的承受能力,造成频繁的停运和性能问题。一个月后,该公司宣布计划建立自己的数据中心,以便更好地应对增长需求。
9月8日:Digg出现严重停运事件:社交新闻中心Digg.com部署版本4的数据库导致它出现严重的可用性问题,由此引发了一场争论:停机时间到底与部署像Cassandra这样的NoSQL数据库有关,还是说这仅仅是一家公司在还没有作好充分准备的情况下,推出一种新的网站架构。
9月23日:Facebook遭遇四年来持续时间最长的停运:Facebook在9月23日那天停运时间超过了两小时,这是大约四年来持续时间最长的一次停运。一处配置更改形成了反馈回路,结果数据库集群不堪重负。要解决这个问题,唯一的办法就是将整个集群拆下来——这对网站来说就意味着停运。
12月5日:Tumblr停运长达24小时:先是数据库集群出现故障,接着又出现网络停运,微博服务网站Tumblr停运时间超过了一天。该网站还不得不应对拒绝服务攻击。此后没多久,Tumblr宣布计划添加一个新的数据中心,以便更有效地管理流量,其每月的页面浏览次数已达到5亿人次。
原文:http://www.datacenterknowledge.com/archives/2010/12/22/2010-the-year-in-downtime/
【编辑推荐】