中国在高性能计算领域所取得的成就已为世界所瞩目,但如果中国的超级计算机不再使用美国制造的处理器,而是将自家生产的低功耗的龙芯取代美制x86芯片,结果又会如何呢?这个龙(芯)之梦离我们还有多远,也许龙芯-3B处理器会给你一个启示。
近日,中国科学院展示了下一代8核心龙芯-3B芯片。预示着中国未来的超级计算机将用自主研制的龙芯代替美国设计的x86芯片和GPU协同处理器(51CTO推荐专题:风雨八年 揭秘国产“龙芯”服务器)。
龙芯系列处理器路线图
龙芯基于SGI公司的MIPS架构。32位的龙芯-1主频只有266MH。龙芯-2为64位,主频提高至1.2 GHz。2007年发布的龙芯-2F具有4个核心,主频800MHz,浮点运算能力32亿次/秒。针对服务器应用的龙芯-3A处理器在推迟一年后发布。中科院在开发时加入了对硬件的64位指令仿真功能,El Reg一年前就曾报道称,龙芯-3处理器加入了一些指令,可以帮助QEMU管理程序(Red Hat KVM管理程序的核心部分)实现x86和MIPS指令格式的转换。
#p#
龙芯-3B于2012年登陆超算
龙芯-3A在设计上采用65nm CMOS工艺和BGA封装格式,4个64位处理器核心,主频为900MHz至1GHz,浮点运算能力160亿次/秒。该处理器包含4.25亿个晶体管,核心面积174.5平方毫米,功耗仅10W,还包括两个16位的HyperTransport 1.0 端口、4MB二级缓存和两个支持DDR2和DDR3的内存控制器。
龙芯-3B处理器示意图
胡伟武在ISSCC大会上介绍的龙芯-3B采用65nm CMOS 工艺,具有8个核心,每个核心有2个256位向量协同处理器,主频仍为1GHz,浮点运算能力1.28千亿次/秒。该处理器具有两个HyperTransport端口和两个DDR3内存控制器,共包含5.83亿个晶体管,核心面积为299.8平方毫米,功耗为40W。在之前的测试中龙芯-3B功耗为28.9W,内核以外的部分消耗11.1W。
胡伟武表示:“MIPS基本指令只有300多条,我们自己增加了500多条。在龙芯-3B和龙芯-2H处理器中,我们的向量计算部件实现了128个256位的寄存器。”
龙芯-3B将会在2012年用于曙光6000超级计算机。
#p#
早期龙芯-3B刀片服务器
下图为配备了龙芯-3B处理器刀片的早期版本。
曙光双路龙芯-3A和龙芯-3B刀片服务器
曙光6000刀片服务器
胡伟武透露,曙光6000刀片的设计曾经用于深圳国家超级计算中心研制至强5650和英伟达M2050的混合系统——星云。星云在2010年11月的TOP500中以1.271千万亿次/秒的成绩获得第三名。
另一个曙光6000刀片集群将配备3000个龙芯-3B芯片,计算水平将达到300万亿次/秒。预计会在今年夏天推出。
#p#
曙光6000不是最高密度
曙光6000刀片系统绝不是中科院计算所能达到的最高密度。我们可以查看下胡伟武在ISSCC大会上展示的1U机架服务器的系统板:
中科院IU2T 系统板
这个1U 2T的系统板集成了16个8核心的龙芯-3B处理器,计算水平为2万亿次/秒,一个机架就能得到42万亿次/秒的计算水平。因此要达到1千万亿次/秒的计算水平,理论上24个机架就可以实现。
龙芯-3C的设计将采用28nm制程工艺,推出8核与16核两种产品,具有更高的主频,介于1.5GHz至2GHz之间,计算水平将能够达到5.12千亿次/秒。从路线图可以得知,该处理器还有能力扩展到16核以上,预计会在2012年底或2012年初推出。
#p#
英特尔新安腾处理器“Poulson”
在这次大会上,英特尔公布了新一代安腾处理器“Poulson”的大量技术细节。专门为需要高可靠性和可用性的高端服务器设计的Poulson,可以看做是一个测试英特尔最新技术的媒介,然后将技术向下应用于x86服务器或PC芯片上。
Poulson内核架构图
Poulson使用32nmHKMG工艺(跨过45nm),最多八核心,晶体管也猛增一半多达到31亿个,但是核心面积缩小了22%,只有29.9×18.1=544平方毫米,热设计功耗则依然保持在170W,每核心同频率下降低60%。
Poulson核心架构图解
直接采用32nm工艺,集成约31亿个晶体管,这对采用65nm工艺的上一代安腾来说是个巨大的提升。更先进的制造工艺让英特尔可以在芯片上集成更多的晶体管,从而提升性能,降低泄露,让芯片也更具能效。Poulson还集成了四个全速和两个半速QPI总线控制器,两个SMI可扩充内存互连控制器。
#p#
核心架构与功耗优化
单个核心架构图
同时Poulson每个核心16KB一级数据缓存、16KB一级指令缓存、512KB二级数据缓存、256KB二级指令缓存,然后32MB三级缓存一方面为八个核心共享,但又分成八个4MB大小的LLC区块供给每个核心快速访问(有些类似于SandyBridge),另外还有两个1.5MB目录缓存,总的SRAM缓存容量达到了54MB。
随着处理器的系统集成度越来越高,从而对系统级的功耗优化和有效的电源管理提出了更加苛刻的要求。
功率指标比例
在保持当前功耗特性不变的前提下通过一系列低功耗技术来提高系统性能仍然是很多工程师采取的方式。对功耗问题的持续关注也将促进各种系统如PC,服务器,数据中心等类似的系统功耗优化,最终的结果必将是更低的成本,更低散热需求,以及更加绿色环保的产品。
#p#
IBM zEnterprise 196处理器
IBM zEnterprise 196处理器其实已经发布了将近半年时间,从发布到现在,IBM唯一谈论的一个技术点就是新大型机的处理器主频为5.2GHz,是“全球最快的微处理器”。
IBM z196大型机芯片图解
z196处理器有14亿个晶体管,面积为512.3平方毫米,这使其在晶体管数量和面积上都要大于POWER7芯片。z196芯片采用了IBM的触点陈列封装,被称为C4的金属触点封装取代了以往的针状插脚。z196处理器有惊人的8093个电源触电和1134个信号触电。
SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的——几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存(编者注:即采用了eX4架构的IBM X3850M2/3950M2平台,可通过扩展组建升级为16路系统。对应的CPU为Xeon 7400系列)。L4缓存之所以重要,其原因在于大型机引擎的主频要远高于主内存速度,但是如果只通过增加一个缓存层来满足Z196的引擎需求是非常昂贵的。
#p#
缓存的重要性
每个MCM上部署6个CP和2个SC,MCM是一个边长96毫米的正方形,功耗1880瓦。每个处理器板有一个MCM,这使得一个完全连接的系统可以达到96个CP,十几个控制器可以访问多达3TB RAID内存,32个I/O Hub接口最高可实现288 GB/s的I/O带宽。顶架式zEnterprise 196 M80设备中的80个CP可用于运行工作负载,其他可以使用Parallel Sysplex集群来耦合系统、管理I/O和热备份等等。
zEnterprise196SMPHub/共享缓存
z196芯片上的每个核心都有64KB的L1指令缓存和128KB的L1数据缓存(与z10相同)。这些核心是非常相似的,但是z196有100个新指令和超标量通道允许指令重新排序,让通道比z10更较有效,而且对编辑代码是不可见的。每个核心都有1.5MB的L2缓存。
其采用45nmPDSOI工艺制造,13个金属层,3500米连线,14亿个晶体管,核心面积512平方毫米。每颗芯片有四个核心,每两个核心共享一个协处理器(COP),用于加解密和压缩的加速。
IBM z196大型机芯片
缓存方面,每个核心64KB一级指令缓存、128KB一级数据缓存、1.5MB二级缓存,四个核心共享24MBeDRAM三级缓存,六颗处理器组成一个节点还共享192MBeDRAM四级缓存。同时z196还支持DDRRAIM内存容错技术。
#p#
AMD推土机架构Bulldozer
至于AMD之前早就公布过下一代处理器架构推土机的大量技术细节。推土机架构Bulldozer主攻性能和扩展性,面向的是主流客户端和服务器领域。可以说推土机是AMD彻底重新设计的核心,将成为AMD下一代高性能处理器技术,用于客户端和服务器领域,相比于Opteron6100系列会增加33%的核心、大约50%的性能。
Bulldozer是AMD最新的突破
推土机的模块可以通过HyperTransport高速点对点总线多个累加在一起,组成更多核心产品,比如代号英特拉格斯的Opteron6200系列服务器处理器就有6-8个模块、12-16个核心,代号巴伦西亚的Opteron4200系列则有3-4个模块、6-8个核心,它们会分别取代现有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均采用GlobalFoundries32nmSOI工艺制造。
#p#
Bulldozer芯片的基本构建块是AMD所谓的“模块”,带有一个有自己L1缓存的单线程四通道的整数单元。这个模块中2个这样的整数单元,以及2个128位浮点计算单元;所有4个这单元共享指令集和解码单元,以及共享的L2缓存、共享的L3缓存和共享的北桥来连接到外围设备。这样2个Bulldozer就有一个共享的浮点调度器和两个整数调度器;如果整数单元空闲的话,这个四核芯片就可以在一个时钟频率内执行4个双精度或者8个单精度读点运算。
推土机将采用新的模块化设计,每个模块拥有两个四管线核心,彼此共享一个浮点调度器和两个128位乘法累加单元(FMAC)。两个核心都拥有自己的整数调度器、一级数据缓存,并预取、解码单元和二级缓存。新架构还将有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
除了高性能计算领域之外浮点运算量并不多,这种浮点调度器共享设计能大大节省晶体管、核心面积、功耗,降低成本;两个FMAC单元既可以被每个核心单独使用,也可以合并组成一个256位FMAC单元,当然这需要程序代码做相应改变。为了获得最大程度的性能功耗比,推土机架构还会在共享、专用单元之间动态切换。
51CTO观点:对于当今的服务器处理器行业来说,无论是IBM、Intel还是AMD都各自在高端处理器市场独当一面。处理器巨头技术争霸的结果我们暂时还无法判定高下,但既然能成为领跑者就有一定的原因。本次大会上,龙芯处理器再次提出新的规划,如果能跻身超算处理器市场,那将是中国处理器一次里程碑的进步。在服务器处理器的混战中,最后赢家是Intel、AMD还是IBM呢?也许不只三家争霸也未可知。
【编辑推荐】