一、项目背景与用户需求
随着社会经济的发展,各行各业对信息化的需求已经越来越白热化,特别是生物医疗行业对高性能计算的迫切需求变得日益突出。近年来随着国家对医疗卫生事业的重视,国内相关医疗企业和机构对高性能计算的应用也日渐重视。SARS、H1N1等流行性疾病的肆虐更是加大了相关机构的重视程度,对于疾病控制的要求也日益紧迫。在此背景下,广大医疗机构纷纷加大了研究范围以及研究力度。
随着中国医学研究领域的不断深化,原有研究运算系统的运算速度与运算质量已经不能满足日益增加的研究项目的需求,特别是对高性能计算、网络计算和虚拟机技术等方面的需求急剧增加。因此,我国有关医疗系统也在逐步加快各医疗***设备的购置投入。其中尤以中国医学科学院最为突出。
长期以来,中国医学科学院作为生物医疗的龙头代表,一直走在行业应用的最前端。面对瞬息万变的医疗需求,同时为了更好的服务民众,中国医学科学院病原生物学研究所重点加强了防御传染病领域的研究力量,以应对传染病对人类健康可能造成的挑战和影响。
随着医疗医学研究项目的深入和用户的不断增加,以及海量信息处理、信息开发和科学研究对高性能计算服务的需求,中国医学科学院对各类疾病病原体进行快速高效研究分析等的高性能计算方面的需求,存储系统空间已经严重不足,数字化医学研究系统已不堪重负。
因此中国医学科学院迫切需要一系列在高性能计算方面具有高速度、高效率、易管理的大型超级计算系统来支持其日益严格的科学研究。
二、曙光构建病原生物学研究所大型计算平台
经过反复论证、多方比较,中国医科院最终选择了曙光公司提供的一套具有高度适应性的高性能计算平台。该系统使用32片曙光刀片服务器作为计算节点,1台8路SMP共享内存小机作为胖节点,1片曙光双路刀片服务器作为登陆管理节点,7片曙光刀片服务器作为I/O节点,并通过千兆交换网络及高速Infiniband网络进行网络互联
在满足用户需求的前提下,***限度地整合资源。综合配备的系统实现了物尽其用,能够***程度地满足中国医科院科研工作以及医疗行业对高性能计算能力及存储的需求。以下是该系统的拓扑图:
三、曙光TC2600刀片服务器的特点
TC2600 系列刀片服务器是曙光公司研发的第三代双核/四核刀片服务器产品,它在众多方面超越了传统机架式服务器,是高稳定、高可用、高扩展、高密度、高性能的新一代服务器产品。与传统的服务器相比,TC2600刀片服务器可提供更有竞争力的整体解决方案,是满足更高计算性能需求和运行关键应用程序的理想平台。
除了以上的优势特点外,曙光TC2600还具有以下的突出的6个技术特点:
1、高效的BladeEngine智能平台:刀片服务器***的特点就是高密度的机箱设计,合理先进的机箱构造是衡量一款刀片服务器性能的重要指标。曙光BladeEngine刀片机箱在7U机架空间的刀片机箱最多容纳10个刀片的超高密机构设计,使整个机箱能够增加42.8%的计算密度,可***限度地提升数据中心和高性能计算中心的处理能力;全模块化的设计能节省86%以上的电缆,从而节省安装部署的时间和电缆花费。
2、冷静自若的线形预补偿散热模块(LPCM):刀片服务器设计***障碍为散热问题,大部分的刀片服务器项目的失败主要是由于散热无法过关。曙光刀片服务器首先在确定科学的系统架构基础之上,保证系统散热和计算密度达到平衡。曙光TC2600特有的线形预补偿散热模块(LPCM)是曙光***研发的散热技术,配备6个冗余风扇,能够根据温度变化,线性平滑调整风扇转速,减弱噪音,降低不必要的功耗;同时LPCM还能根据温度变化,预测下一阶段温度变化趋势,提前进行转速调整补偿,保证风扇转速和噪声平稳,保障刀片服务器在任务变换时的散热效果,延长风扇的使用寿命。
3、自动智能调节电源模块SRPM:刀片服务器是一种高密度集中的结构设计,在有限的空间里满足高性能计算应用的需求,电源供电系统的重要性不言而喻,TC2600刀片服务器配备了6个1000W具有负载均衡和故障切换功能的热插拔电源模块,支持“4+1”和“4+2”两种电源冗余方式,可选两种工作模式:手动优化和自动智能调节;SPRM可以根据功耗变化,自动智能调节电源系统的管理略,能够始终保持电源模块工作在效率曲线的高点,减少不必要的功耗损失,大幅增加电源的使用寿命;除此之外SRPM还支持实时状态监控、远程电源控制和实时的电源负载测量和显示。
4、全视角管理模块:承担高性能计算任务的刀片服务器,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,TC2600内置曙光刀片服务器管理软件,能够通过WEB页面的形式管理系统的运行,可提供所有组件的***状态及图形标示的详细信息,支持实时状态监控、故障预警,动态优化调整资源配给和工作策略;提供多种错误故障报警方式,日志、审计和报表可供查询;允许加密的远程控制,可从任何位置控制操作及监控整体运行状况。
5、高效的IB高速交换模块:高性能计算应用需要不断的与外界交换数据,庞大的数据交换工作,对于服务器系统的I/O交换是一个巨大的挑战。曙光TC2600刀片服务器采用第三代 Infiniband Switch芯片,提供高达800Gb/s的交换带宽,远远超过市场同类产品;除此之外,高带宽、低延迟、全互联的Infiniband交换模块,能够提供10个传输速率为20Gb/s外联端口,支持铜缆和光纤接头的转换;并且支持VL(Virtual Lane)划分,让数据中心的数据交换工作轻松自如。
6、创新的I/O扩展模块: I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器产品在需要扩展其它插件的时候,一般都借助于主板子卡的扩展形式,而且只能进行单一功能的扩展。曙光TC2600创新性的I/O扩展模块打破了一直以来刀片服务器I/O扩展方式的限制。TC2600为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。
四、曙光高性能集群系统配置设备
由于医疗研究行业的特殊应用需求,随着行业的发展,因此对硬件平台、OS平台、应用环境平台高效率的集群系统要求极高。此系统的建设必须具备精准计算、高校运算、庞大的存储空间以及预留升级空间等优势特点。曙光公司深谙此理,因此选择了注重效率设计思路的曙光4000A,它能贯穿到每一个细节,在每个层面上都做到性能***,尤其是OS平台以及应用环境平台。
Intel xeon 双路四核刀片服务器CB60-G属于TC2600高性能集群系统,它采用了Intel 5500系列高端芯片组,7U空间里可容纳80个计算核心,其高效能的配置足以支撑医疗行业用户的高速计算需求。同时在扩展方面为升级提供了很大的空间,能够满足日后发展壮大的需求。
曙光刀片平台良好的兼容性能够在满足医疗用户需求的前提下,***限度地整合资源,节约空间,减少布线,降低成本。同时,曙光刀片网络,Infiniband设备的模块化设计也为用户***限度提高了性能,节约了成本。
五、曙光TC2600集群系统为医科院研究分析工作提供有力支持
目前,曙光病原生物学大型计算平台正在助力中国医科院加快对现代医学信息化建设的研究和科研工作,该高科技平台带来的不仅仅是运行效率的显著提升,同时也完全满足了类似病原所等研究机构对更高计算性能和更低成本的追求。让用户在***程度上感受到高性能计算技术的真实价值,从而实现稳定、高品质的服务,也将在更深层次上推动我国医学研究行业高性能计算系统的建设,让中国的医疗事业发展在高性能计算平台上扬帆起航,为我国的医学研究工作提供了有力的支撑。