亚马逊平安夜宕机细节:负载均衡出错

服务器
Amazon ELB从故障到完全恢复的时间为2012年12月24日的中午12点24分到12月25日的12点05分。Amazon说明,该站的开发人员在进行维护时不小心删除了ELB上的状态数据,这些数据是用来管理美国东部的负载均衡器。

据国外媒体消息,2012年圣诞夜(12月24日)专门提供视频流的Netflix服务中断了近20小时,并说明是因Amazon云(AWS)故障而造成的影响,Amazon随后出面解释,因负载均衡服务(Amazon Elastic Load Balancing Service,ELB)的数据误删除引起的。

Amazon ELB从故障到完全恢复的时间为2012年12月24日的中午12点24分到12月25日的12点05分。Amazon说明,该站的开发人员在进行维护时不小心删除了ELB上的状态数据,这些数据是用来管理美国东部的负载均衡器,但当时没未发现,一直到ELB控制盘在呼叫API来管理负载均衡器时不断出现延迟及错误提示才得知,且只有少数的ELB负载均衡器受到影响。

一开始Amazon并未发现出错的原因,而以为是API错误,随后AWS的客户才提交他们在更改负载均衡的设定后性能出现问题,Amazon才发现症结,并回复遗失的ELB数据。

Amazon表示,在最高峰的时候,只有6.8%使用负载均衡器的服务受到影响,因为其他的负载均衡器无法由客户自行扩展或修改而未受波及,AWS团队先进行手动回复受到影响的负载均衡器,随后装回移失的ELB数据。

除了道歉外Amazon给出补救措施,包括提出更严谨的规定以降低ELB状态数据被误删的风险,由此次的经验修改数据恢复流程加快数据恢复速度。

责任编辑:路途 来源: 51CTO
相关推荐

2012-12-26 10:05:06

亚马逊云计算Netflix

2013-01-18 09:33:32

云负载均衡应用交付控制器亚马逊Web服务

2021-12-24 14:17:11

SVG平安夜祝福动画

2009-12-25 17:50:04

2011-12-20 12:19:11

2010-12-24 18:12:02

系统升级

2014-12-25 17:07:00

2009-12-24 13:51:54

热门服务器

2010-04-28 17:01:30

Apusic负载均衡器

2017-07-03 08:08:25

负载均衡分类

2021-12-15 18:32:33

Log4Shell漏洞攻击

2019-03-18 10:44:41

负载均衡DNSUDP

2011-12-02 22:51:46

Nginx负载均衡

2018-11-07 10:12:37

2010-04-22 10:46:40

Lvs负载均衡故障负载均衡器

2010-05-10 14:15:54

DNS负载均衡

2010-04-20 12:49:27

负载均衡策略

2010-05-06 15:00:58

集群负载均衡

2010-04-21 14:34:33

websphere负载

2022-05-06 09:21:57

工作负载SPDK线程
点赞
收藏

51CTO技术栈公众号