随着工艺技术不断向前推进,来自不同领域的处理器的集成度不断增加。在2011年度的ISSCC国际固态电路会议上,集合了来自全球最新的技术研究成果。ISSCC(IEEE International Solid-State Circuits Conference)是美国电气和电子工程师学会(IEEE)主办的国际电子电路研讨会,有IC领域的奥林匹克之称(搅局市场 来年处理器货比“三”家)。
ISSCC会议上厂商展台
去年2月在旧金山召开时也是引起了非常大的轰动。而在今年的会议上,Intel、AMD、IBM三大巨头汇聚一堂,最精彩的产品荟萃让处理器市场高潮迭起,下面就随着小编一起来看下这场2011年高端处理器巨头的技术争霸战怎么样。
近年来芯片制造商通过增加核心、片上缓存和提升时钟频率来提升芯片性能。英特尔和IBM的新芯片也将具有更高的频率和片上缓存,面向需要高可靠性的服务器。
处理器芯片
在晶体管集成度,单位功率性能和功能集成等关键指标方面,新的记录在不断产生的同时又不断地被打破。这些高性能数字电路的实现覆盖了大量的工艺技术,包括65纳米,45纳米,40纳米和32纳米及SOICMOS技术。
#p#
英特尔新安腾处理器“Poulson”
在这次大会上,英特尔公布了新一代安腾处理器“Poulson”的大量技术细节。专门为需要高可靠性和可用性的高端服务器设计的Poulson,可以看做是一个测试英特尔最新技术的媒介,然后将技术向下应用于x86服务器或PC芯片上。
Poulson内核架构图
Poulson使用32nmHKMG工艺(跨过45nm),最多八核心,晶体管也猛增一半多达到31亿个,但是核心面积缩小了22%,只有29.9×18.1=544平方毫米,热设计功耗则依然保持在170W,每核心同频率下降低60%。
Poulson核心架构图解
直接采用32nm工艺,集成约31亿个晶体管,这对采用65nm工艺的上一代安腾来说是个巨大的提升。更先进的制造工艺让英特尔可以在芯片上集成更多的晶体管,从而提升性能,降低泄露,让芯片也更具能效。Poulson还集成了四个全速和两个半速QPI总线控制器,两个SMI可扩充内存互连控制器。
单个核心架构图
同时Poulson每个核心16KB一级数据缓存、16KB一级指令缓存、512KB二级数据缓存、256KB二级指令缓存,然后32MB三级缓存一方面为八个核心共享,但又分成八个4MB大小的LLC区块供给每个核心快速访问(有些类似于SandyBridge),另外还有两个1.5MB目录缓存,总的SRAM缓存容量达到了54MB。
随着处理器的系统集成度越来越高,从而对系统级的功耗优化和有效的电源管理提出了更加苛刻的要求。
功率指标比例
在保持当前功耗特性不变的前提下通过一系列低功耗技术来提高系统性能仍然是很多工程师采取的方式。对功耗问题的持续关注也将促进各种系统如PC,服务器,数据中心等类似的系统功耗优化,最终的结果必将是更低的成本,更低散热需求,以及更加绿色环保的产品。
#p#
IBM zEnterprise 196处理器
IBM zEnterprise 196处理器其实已经发布了将近半年时间,从发布到现在,IBM唯一谈论的一个技术点就是新大型机的处理器主频为5.2GHz,是“全球最快的微处理器”。
IBM z196大型机芯片图解
z196处理器有14亿个晶体管,面积为512.3平方毫米,这使其在晶体管数量和面积上都要大于POWER7芯片。z196芯片采用了IBM的触点陈列封装,被称为C4的金属触点封装取代了以往的针状插脚。z196处理器有惊人的8093个电源触电和1134个信号触电。
SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的——几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存(编者注:即采用了eX4架构的IBM X3850M2/3950M2平台,可通过扩展组建升级为16路系统。对应的CPU为Xeon 7400系列)。L4缓存之所以重要,其原因在于大型机引擎的主频要远高于主内存速度,但是如果只通过增加一个缓存层来满足Z196的引擎需求是非常昂贵的。
每个MCM上部署6个CP和2个SC,MCM是一个边长96毫米的正方形,功耗1880瓦。每个处理器板有一个MCM,这使得一个完全连接的系统可以达到96个CP,十几个控制器可以访问多达3TB RAID内存,32个I/O Hub接口最高可实现288 GB/s的I/O带宽。顶架式zEnterprise 196 M80设备中的80个CP可用于运行工作负载,其他可以使用Parallel Sysplex集群来耦合系统、管理I/O和热备份等等。
zEnterprise196SMPHub/共享缓存
z196芯片上的每个核心都有64KB的L1指令缓存和128KB的L1数据缓存(与z10相同)。这些核心是非常相似的,但是z196有100个新指令和超标量通道允许指令重新排序,让通道比z10更较有效,而且对编辑代码是不可见的。每个核心都有1.5MB的L2缓存。
其采用45nmPDSOI工艺制造,13个金属层,3500米连线,14亿个晶体管,核心面积512平方毫米。每颗芯片有四个核心,每两个核心共享一个协处理器(COP),用于加解密和压缩的加速。
IBM z196大型机芯片
缓存方面,每个核心64KB一级指令缓存、128KB一级数据缓存、1.5MB二级缓存,四个核心共享24MBeDRAM三级缓存,六颗处理器组成一个节点还共享192MBeDRAM四级缓存。同时z196还支持DDRRAIM内存容错技术。
#p#
AMD推土机架构Bulldozer
至于AMD之前早就公布过下一代处理器架构推土机的大量技术细节。推土机架构Bulldozer主攻性能和扩展性,面向的是主流客户端和服务器领域。可以说推土机是AMD彻底重新设计的核心,将成为AMD下一代高性能处理器技术,用于客户端和服务器领域,相比于Opteron6100系列会增加33%的核心、大约50%的性能。
Bulldozer是AMD最新的突破
推土机的模块可以通过HyperTransport高速点对点总线多个累加在一起,组成更多核心产品,比如代号英特拉格斯的Opteron6200系列服务器处理器就有6-8个模块、12-16个核心,代号巴伦西亚的Opteron4200系列则有3-4个模块、6-8个核心,它们会分别取代现有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均采用GlobalFoundries32nmSOI工艺制造。
Bulldozer芯片的基本构建块是AMD所谓的“模块”,带有一个有自己L1缓存的单线程四通道的整数单元。这个模块中2个这样的整数单元,以及2个128位浮点计算单元;所有4个这单元共享指令集和解码单元,以及共享的L2缓存、共享的L3缓存和共享的北桥来连接到外围设备。这样2个Bulldozer就有一个共享的浮点调度器和两个整数调度器;如果整数单元空闲的话,这个四核芯片就可以在一个时钟频率内执行4个双精度或者8个单精度读点运算。
推土机将采用新的模块化设计,每个模块拥有两个四管线核心,彼此共享一个浮点调度器和两个128位乘法累加单元(FMAC)。两个核心都拥有自己的整数调度器、一级数据缓存,并预取、解码单元和二级缓存。新架构还将有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
除了高性能计算领域之外浮点运算量并不多,这种浮点调度器共享设计能大大节省晶体管、核心面积、功耗,降低成本;两个FMAC单元既可以被每个核心单独使用,也可以合并组成一个256位FMAC单元,当然这需要程序代码做相应改变。为了获得最大程度的性能功耗比,推土机架构还会在共享、专用单元之间动态切换。
对于当今的服务器处理器行业来说,两大阵营Intel、AMD的竞争一直很激烈。 在高端处理器市场上,无论是Intel还是AMD都各自在高端处理器市场独当一面。先不说哪家的处理器产品好坏或者哪种产品市场占有率高。既然能在服务器处理器市场上成为领跑者就有一定的原因。这次高端处理器的巨头技术争霸结果我们暂时还无法判定高下,但是作为旁观者的您,不妨预测一下。这场战役的最后赢家是Intel、AMD还是IBM呢?
【编辑推荐】