【51CTO独家特稿】2009年10月29日15:30分很多淘宝网的淘友们突然发现支付宝不能使用了,官方的解释是“系统紧急维护”,但是很多人对这个公告并不买账,因为按照淘宝的惯例,维护多在凌晨进行,不会选择交易量疯狂的下午,更严重的是很多买家付款后系统仍显示“待付款”,于是很多人都纷纷猜测淘宝网已被黑客光顾?
17:00以后,淘宝网的交易流程陆续恢复正常,淘友们账户中的money也没有缩水。对于众淘友们来说,钱没少就已经皆大欢喜了,而仅仅一个多小时的中断时间也是无关痛痒的,而对于我们这些每天管理服务器的IT人士来说,这个事件给我们一个大大的警示。
淘宝网给我们的最终解释是:2009年10月29日下午15时30分左右,支付宝方面发现系统运转缓慢,采取服务器紧急扩容来应对这些流量不足。我们不禁要问流量不足的问题为什么IT部门没有事先预判到?为什么要采取紧急扩容?在扩容前以及扩容后我们都需要注意哪些事项?我们不妨说一说。由于这方面所涉及的点比较多,我们把服务器扩容的注意事项分成三个篇章来讲述,首先说说事前准备篇。
我们知道,不管是暴露在网外的,诸如电子商务、OA、邮箱等公用服务,还是置身于内网的活动目录、DNS、ERP等专属服务,它们的存在都是一个机构正常运行的保证,任何时候都不能出现中断的情形。而如果服务器所营造的平台不能满足当前的应用需求而必须要做出更换或者扩容的时候,我们必须做好充足的准备工作。
服务器扩容事前准备篇A、扩容实施的时间
每一个服务都有存在的价值,即便是短暂的停歇也会造成重大的损失,所以我们在做服务器扩容时要选择合适的时间。最佳的时间段应该在凌晨2:00~5:00之间,这个时间段使用的用户较少,服务器的短暂维护不会造成太大的影响。而如果是跨国企业,我们还要考虑到时差的因素,维护的时间最好安排在周六的凌晨进行,这基本上算是公用的休息时段。
服务器扩容事前准备篇B、冗余服务器
如果某一项服务只有一台服务器,那么我们必须考虑到它的冗余问题,在升级、扩容之前,我们必须为其准备一台冗余服务器,以防止扩容失败造成服务不可用的情形,因为这个冗余服务器只是临时使用,所以为了不增加成本我们可以在其他服务器上建立一个虚拟化服务器作为冗余,待扩容平稳结束,未出现任何问题时,我们即可拆除这个虚拟化冗余。
服务器扩容事前准备篇C、软、硬件的综合考评
一个新的应用系统(比如:OA、FMS)诞生往往要经过很多版本的测试,呈现给最终用户手中的必定是最稳定的正式版,但是这个新系统是不是完美无暇了呢?它和我们现行系统的兼容性如何?能否平稳过渡?这都是需要我们在正式实施前做出正确的评估和相应的测试的。
而增加硬件我们则要充分评价其兼容性和动能指标,对某台服务器需要大的改动(比如增加多块硬盘)则需要详细计算它的最大输出功率是否满足需求,其散热是否能达到相应指标,它采用的是何种RAID技术,同其他硬盘的RAID是否能完美的融合在一起。
服务器扩容事前准备篇D、数据中心的承压能力
如果当前数据中心不能满足日益增长的信息需求,那么仅仅是对一台服务器进行扩容改造有时是杯水车薪的,所以我们看到最多的就是多台服务器的更换或者是大量增加。
这种部署是IT运维人员最喜欢的,因为搞IT的都迷恋于追新,况且这种部署可以有充分的实施和测试过程,相对比较容易。但是我们不要忽略一个重要问题,那就是大量的增加服务器破坏了整个数据中心的电力、散热等恒定因素,我们需要重新计算UPS的供电能力,精密空调系统的恒温恒湿能力,这也是前期准备阶段不容忽视的。
服务器扩容事前准备篇E、通告
隶属于本网的所有用户都有信息知情权,在作出服务器扩容之前我们要通过Web公告或者邮件群发等形式告知所有用户,哪个时段做维护,哪些服务不能使用,并建议用户做好相关文件的备份等工作。
OK,注意到这些事项后我们即可进去正式的实施阶段,我们在下一篇文章将会讲述服务器扩容的具体实施注意事项。
【编辑推荐】