如今云计算风起云涌,特别是公有云的价格优势,令很多行业/企业用户难以视而不见。但与此同时,行业/企业用户也会发现,公有云在安全性、可靠性等属性方面,与企业级需求尚存在着差距,对于行业/企业来说,可靠性和稳定性仍然是首要因素。
热迁移的不足
对于行业/企业私有云来说,非常看重类似VMotion这样的热迁移功能和特性,因为行业/企业非常注重系统的稳定性和可靠性。
在很多应用场景都需要5个9以上的高可用性,尽管随着制造水平的提升,如今硬件系统的质量达到了一个非常高的水平,以往因为硬件故障所导致的系统中断事件不再频繁出现,系统应用进入了一个相对成熟的事情,但对于关键业务应用而言,5个9的高可靠性仍然是头等重要的事情。
在金融、证券等交易系统,以及民航、能源等生产控制系统,都需要系统的高可靠性保障。与此同时,用户也需要降低系统的应用成本。
虚拟化,通过组建资源池极大提升了系统的资源利用率,在降低应用成本的同时,对于可靠性的提升也有所帮助。例如VMotion,通过热迁移用户可以将某物理机上的虚拟机进行热迁移,然后对于物理机进行系统升级、打补丁操作,完成后在将虚拟机迁移回来,有效避免可计划内停机时间。
但对于计划外停机,如意外宕机,VMotion是无能为力的。熟悉虚拟化技术的用户知道,计划外停机需要依靠HA、FT(fault tolerance)来提供防护,但实际上,这也不过是传统物理服务器双机、集群方案的思路延续。有经验的用户对于双机、集群方案的高可用性水平仍然记忆犹新,可以用差强人意来形容。
everRun的传承
很多行业/企业级用户对于Stratus容错服务器的高可用性表现记忆犹新。它和双机、集群方案不同,它没有采用双机、集群的“热备”思路,而是另辟蹊径。
容错没有采用“心跳”监控的方案,不是用备机(无论standby/Active)随时“接手”,而是一开始就是用两个机器做同一件事情,其内存、I/O和计算完全保持同步,其颗粒密度是时钟周期,也就是说,任何指令都能够做到周期同步。当其中一个机器失效时,系统失去同步,进入单干模式,但整个系统仍然稳定运行。待失效机器修复,系统自动恢复同步模式。相比HA、集群,容错显然具有更高的保障水平。
容错服务器可靠性优势明显,但成本相对较高。尽管Stratus借助x86技术降低了准入门槛,但用户仍然能够追求更高的性价比,希望能够更好融合虚拟化、云计算的发展趋势。如果说,以往系统的可靠性是通过容错硬件来保障的,是通过硬件来定义的,那么,系统的高可用性是否也可以通过软件来定义呢?
everRun就是Stratus针对软件定义趋势而推出的软件定义可用性解决方案。
everRun延续了物理容错服务器的思路,将一个应用程序运行在两台虚拟机上,虚拟机之间保持组件级同步,其中任何组件或者虚拟机失效,均不影响系统的高可用性。everRun的核心是Availability Engine技术,是everRun的心脏,其作用等同于物理容错的“LockStep”技术。它为每台虚拟机指定了容错功能,确保系统运行的高可用性。
针对everRun,Stratus提供可选择的“看门狗”服务,如果用户需要,Stratus支持中心会对系统进行监控,自动发送系统级别的故障通知。everRun不仅具有统一的监控台,简化易用的管理界面,同时,everRun也可以提供远程异地的同步复制功能。
可以说,everRun的推出,迎来的软件定义可用性的新时代。everRun系出名门,是容错服务器高可用性技术的延续和传承。与物理机方案相比,everRun在成本上占据优势。