【51CTO.com独家翻译】我是从对HPC的理解(参考前文)来开始讨论这个主题的,从发展和投资的立场看,HPC是一个有着巨大活力的领域。这部分信息技术受到了OEM(原始设备生产商)以及合作伙伴的广泛关注,因为他们正需要这项技术来迎合顾客不断增长的计算需求。所以在简单地了解了HPC并知道了它为什么会这么重要之后,下一步就需要讨论该如何考虑HPC底层结构以及管理它所需要的“智慧”。你可能会问为什么下一步要这么做。其实建立HPC底层结构也是一种经验,就像其他底层结构的建立一样,譬如网络或是存储器,每个独立的功能组件都需要复杂的计划和设计。而对于HPC,我们确实需要了解每一个节点。接下来让我们一起探讨建立一个HPC底层结构所涉及的更多的事情以及如何做整体考虑。
1、计划和设计:为了成功地计划和设计一个HPC底层结构,第一步应该是“透视表面之下”。简单地理解,就是首先要找出投入HPC建设的主要理由,对HPC设备的需求,就像是很多商业客体都应该对投资和利润有清晰的目标。这方面的考虑在今天比以往任何时候都明显,因为HPC系统的使用量,特别是在研究和发展领域比过去4年就有了70%的稳固增长(数据来自primeur)。先不看HPC技术的巨大发展,它自身类型的增长就是惊人的。这种增长的原因之一或许是复杂性,不只在设计方面,还在消耗方面。加拿大安大略省的HPC研究机构SHARCNET ,围绕HPC技术的采用和实施建立了一项长远的计划。根据他们的报告,设计HPC的所遇到的挑战是“它对大量不同的研究者来说都是可能的技术”。这体现了HPC在复杂性和多样性之外的本质。
2、分析设计硬件:当考虑计划和设计一个HPC底层实现的时候,我曾经对这个领域的一些人说过,我作为一个从业10余年的系统架构师,有一些经验和想法,我所考虑的关键领域包括如下:
a)设备考虑(Rackspace, Power and Cooling机位,电源,制冷设备):如果要问任何一个企业层数据中心管理员,让他最头疼的10件事情是什么,他一定会说是“rackspace, power and cooling”。更深入考虑,你就会发现,在任何数据中心,Colocation(可以使用的机位)的数量都是固定的。这意味着,以每个u(rackspace的计算单位)计算,在每个colocation上的rackspace是非常珍贵的。而且在这些小型即插即用的服务器电路板上布置那么多密集芯片集也就带来了电源和制冷设备的挑战。
注释——在每个rank,相比10多年前,你需要更多的出口和更多的气流,同时还有4、5u的服务器占据整个rank。
b)物理设施计划:引用HPC领袖Frank Chism说的一句话“我不能不强调在HPC部署中物理设施计划的重要性。这件事情就像要想很好地管理和设计布线,就要首先考虑好房间和通路。HPC使用仅比SAN稍少的电缆线数,同时,还要注意地板的承重量,空气流通性,足够的电力。最后,千万千万不要忘记带外管理。深层的底层地板确实能够帮助电缆布线。”
注释——有效的HPC性能来自于有效的HPC设计,它不仅包括软件部分,也包括很多硬件设施。这些硬件设施不单指芯片设计,还包括在地板之下的布线设计。
c)硬件和处理机设计:硬件和处理机体系结构的设计关系到HPC的性能(这是HPC的核心和灵魂)。在HPC体系结构之上加上能源有效的硬件就等于是增强了普通计算能力,也就相当于建立了一个HPC底层结构。在这方面所展现出来的优势就是更快的数据访问和增强的指令。“性能”这个词重复贯穿整个主题,这是因为“性能”就是HPC所关心的,就是减少数据计算周期的能力。这方面需求核心的一部分是选择适合的硬件和处理机规格。
3、实现HPC工具和软件:就像其他硬件,HPC集群就是一些软件和工具通过底层结构来运行,进行计算,产生结果。考虑一些核心的HPC工具和软件,下面是我的想法:
a)建立和部署系统:建立一个HPC集群,使问题回到了我第一部分提到的——你想用它来干什么?尽管有很多方式和方法允许你驱动一个HPC系统的软件和安装,但底线是,这很大程度上取决于你规划的这个HPC集群的组成部件有哪些。我们来一起关注一些现有的HPC软件和部署工具,比较流行的很少,如SCALI和HP-MPI。这些软件包为管理一个HPC集群提供部署,监测和任务调度服务,比如IBM的CSM软件。而开源软件有Maui和Torque,它们就像是任务调度程序和资源管理程序那样来管理计算节点和集群。Platform Rocks是另一套软件,它允许安装和综合第三方应用程序。
b)平行的文件系统:引用Wikipedia的描述“分布式平行文件系统可以从多个服务器平行获得数据,以此达到高性能。一些分布式平行文件系统使用OSD(目标存储设备,在Lustre叫做OST)和集中的元数据服务器来同时获得大块数据,例如,UCSC的Ceph分布式文件系统;CFS的Lustre文件系统以及PVFS,PVFS2。”
深入考虑: 根本地说,平行文件系统是那些通过平行达到高带宽的文件的全球命名空间。这种带宽有三维:高聚集带宽,高单一数据流带宽,和每秒的高元数据操作。似乎还没有人能够在所有这三维上都达到高性能。不要忘记数据量是如此巨大,做备份是主要保证,因此,也需要可靠性。而且,似乎还没有人能够实现一个平行文件系统可以很好地为短期I/O操作实现高速度数据传输。
c)成倍处理能力的网络:实现HPC最后要考虑的通常是HPC需要有成倍处理能力的网络。例如,如果一个网络不能处理如此大的带宽,那么即使有一个平行文件系统可以在每秒发送十亿字节数据到一个节点也是徒劳的。
所以,总结地说,在建立HPC底层结构中我们学习到的知识是:
◆全面的理解为什么要投资HPC和我们期望的成果是什么
◆深层理解HPC核心硬件以及设计组件
◆为确保有充足的布线和底层地板空间,需要考虑的设备和物理设施
◆基于软件和工具集的HPC设计
◆理解三维带宽
◆为了所需的带宽,需要把“成倍处理能力网络”的概念注入到节点设计中
原文链接:http://port25.technet.com/archive/2006/12/01/thinking-about-hpc-infrastructure.aspx
|
|||
| · McWill、WiMAX、3G博弈 · 网管系统介绍 · 网络管理系统如何支撑I.. · CISSP认证成长之路 · 51CTO国庆充电专题之好.. · 网络技术经典基础教程 · 51CTO主编推荐经典专题 · RAID——磁盘阵列基础 |
· 充电计划之热门IT认证.. · 51CTO技术自测 挑战自.. · AMD Phenom三核处理器.. · 国际文档格式标准开战 · 2007年互联网大会 · 我是黑客我怕谁——讲.. · Solaris 10 配置管理 · Solaris基础知识入门 |
||
|
|||
| · Java基础教程 · VPN技术 · ARP攻击防范与解决方案 · SQL Server 2005全解 · SOA 面向服务架构 · SQL Server 2005全解 · Java编程开发手册 · RAID——磁盘阵列基础 |
· 三层交换技术专题 · SQL Server入门到精通 · Windows Server 2003企.. · Windows远程桌面应用 · C#技术开发指南 · VPN技术 · C#技术开发指南 · Solaris 10 配置管理 |
||
|
|||
| · ARP攻击防范与解决方案 · VPN技术 · SQL Server 2005全解 · Java基础教程 · SQL Server入门到精通 · SQL Server 2005全解 · SOA 面向服务架构 · Java编程开发手册 |
· C#技术开发指南 · 三层交换技术专题 · C#技术开发指南 · Windows远程桌面应用 · RAID——磁盘阵列基础 · Windows Server 2003企.. · 邮件服务器专题 · wimax技术与趋势 |
||
| ·DB2 Viper快速入门 ·DB2 9数据库的镜像分割与.. |
·将XML应用程序从DB2 8.x.. ·DB2 9中的pureXML:如何.. |
| ·服务器中的“傻瓜机”在.. ·盖茨也喜欢登录Youtube看.. |
· · |
| ·虚拟化改变操作系统的角.. ·拯救系统管理员 |
·美国选民:我为什么选布什 ·VMware公司中文命名挑战赛 |
| ·体验Windows Server 2008.. ·将超星图书转成PDF文档 |
·使用 Office Communicati.. ·VMware Workstation 6.01.. |
| · 华为、贝恩资本22亿美元.. · NGN:下一代网络 · 网络访问中断大排查 |
· 教你使用Anti ARP Sniff.. · 网络嗅探教程:使用Snif.. · 常见病毒手工清除方法大.. |
| · C++是垃圾语言?! · 2007年IT界七大抄袭事件 · Java实用开发全集 |
· 解析Ajax开发框架 走进A.. · 基于Google Maps与Ajax.. · 基于Google Maps与Ajax.. |
| · 热门 IT 培训认证官方资.. · Ubuntu 中文开源频道 · Solaris基础知识入门 |
· Google推出唯一硬件——.. · 硬盘之父获得诺贝尔物理.. · 理性面对四核服务器选购 |
| · 甲骨文Oracle 11g正式发.. · Oracle数据库开发之PL/S.. · Oracle数据库开发基础教.. |
· 硬盘之父获得诺贝尔物理.. · 存储2006,一个并购的大.. · IDC宣布浪潮蝉联存储市.. |