亚马逊平安夜宕机细节:负载均衡出错

服务器
Amazon ELB从故障到完全恢复的时间为2012年12月24日的中午12点24分到12月25日的12点05分。Amazon说明,该站的开发人员在进行维护时不小心删除了ELB上的状态数据,这些数据是用来管理美国东部的负载均衡器。

据国外媒体消息,2012年圣诞夜(12月24日)专门提供视频流的Netflix服务中断了近20小时,并说明是因Amazon云(AWS)故障而造成的影响,Amazon随后出面解释,因负载均衡服务(Amazon Elastic Load Balancing Service,ELB)的数据误删除引起的。

Amazon ELB从故障到完全恢复的时间为2012年12月24日的中午12点24分到12月25日的12点05分。Amazon说明,该站的开发人员在进行维护时不小心删除了ELB上的状态数据,这些数据是用来管理美国东部的负载均衡器,但当时没未发现,一直到ELB控制盘在呼叫API来管理负载均衡器时不断出现延迟及错误提示才得知,且只有少数的ELB负载均衡器受到影响。

一开始Amazon并未发现出错的原因,而以为是API错误,随后AWS的客户才提交他们在更改负载均衡的设定后性能出现问题,Amazon才发现症结,并回复遗失的ELB数据。

Amazon表示,在最高峰的时候,只有6.8%使用负载均衡器的服务受到影响,因为其他的负载均衡器无法由客户自行扩展或修改而未受波及,AWS团队先进行手动回复受到影响的负载均衡器,随后装回移失的ELB数据。

除了道歉外Amazon给出补救措施,包括提出更严谨的规定以降低ELB状态数据被误删的风险,由此次的经验修改数据恢复流程加快数据恢复速度。

责任编辑:路途 来源: 51CTO
相关推荐

2012-12-26 10:05:06

亚马逊云计算Netflix

2013-01-18 09:33:32

云负载均衡应用交付控制器亚马逊Web服务

2021-12-24 14:17:11

SVG平安夜祝福动画

2011-12-20 12:19:11

2009-12-25 17:50:04

2014-12-25 17:07:00

2010-12-24 18:12:02

系统升级

2009-12-24 13:51:54

热门服务器

2010-04-28 17:01:30

Apusic负载均衡器

2017-07-03 08:08:25

负载均衡分类

2021-12-15 18:32:33

Log4Shell漏洞攻击

2019-03-18 10:44:41

负载均衡DNSUDP

2012-10-23 16:21:22

亚马逊云计算

2009-07-23 09:23:49

云计算宕机稳定

2021-04-21 14:56:28

负载均衡高并发优化技术架构

2010-05-10 16:20:32

负载均衡策略

2013-04-22 11:29:14

Nginx

2010-05-04 16:10:51

负载均衡算法

2010-05-05 22:58:46

2010-05-07 14:27:16

IPVS负载均衡
点赞
收藏

51CTO技术栈公众号