日前,基于中国自主知识产权CPU设计的龙芯服务器引发业界关注。4月17日,由中国科学技术大学和深圳大学联合研制的,基于新一代龙芯3A四核处理器的万亿次高性能计算机系统KD-60通过专家鉴定;4月23日,曙光公司高调宣布推出基于龙芯3A的刀片服务器CB50-A,并公布了未来基于龙芯CPU的产品路线图和一揽子计划。
为方便大家对龙芯服务器产业化历程有一个清楚的认识,我们梳理了过去8年来,龙芯CPU在服务器、高性能计算机等企业级IT产品领域里的重要事件。正如龙芯总设计师胡伟武在曙光龙芯刀片服务器发布现场所言,“我最早认为龙芯是一个项目,后来认为这是一个产品,现在才发现龙芯其实是一个产业链。”风雨八年,龙芯之路,并不平坦!
龙腾服务器:基于龙芯1号
2001年10月,中科院计算所研制成功我国第一款通用CPU——“龙芯1号”。2002年9月曙光推出了完全自主知识产权的"龙腾"服务器,采用了"龙芯-1"CPU、曙光和中科院计算所联合研发的服务器专用主板以及曙光LINUX操作系统,这是国内第一台完全实现自有产权的服务器产品。
据了解,当时龙腾服务器的CPU主频只相当于英特尔奔腾2的水平,性能较弱,适用于对计算能力要求不高的一些低端应用领域,如VOD点播系统,另外一个重要领域就是对安全性要求非常敏感的领域,如在政府、军队、安全等领域引起了普遍关注。今天回过头来看,龙腾服务器有很强的象征意义,市场化以失败告终,曙光此后数年内也没有再更新或发布新的龙芯服务器,但该产品无疑开启了国产服务器全自主化、产业化的道路。
#p#
龙芯防火墙:基于龙芯2E和龙芯2F
在历经“雷声大,雨点小”的龙腾服务器项目并沉寂多年之后,,曙光开始在网络安全市场寻求龙芯CPU产业化的突破。2007年8月,曙光推出首款基于龙芯处理器的网络安全产品——曙光100L防火墙。
该产品采用龙芯2E处理器,曙光自主开发主板,结合曙光自主的防火墙软件,形成了软硬件一体化的防火墙安全系统,实现了从硬件到软件、从系统到芯片的完全自主知识产权。据了解,龙芯2E是64位的通用RISC处理器,采用90nm的CMOS工艺制造,最高工作频率为1GHz,典型工作频率为600—800MHz,实测功耗5-7瓦,综合性能达到高端奔腾3、中低端奔腾4处理器的水平,完全可满足百兆防火墙的应用需求。
2008年11月,曙光又推出了基于新一代龙芯2F的千兆防火墙产品,在设计上吸收了龙芯2E百兆防火墙的经验,并对软件进行了重大升级。作为一款完全自主知识产权的产品,曙光龙芯防火墙在市场上取得了不俗的业绩,在各政府系统、公安、法院、社保、证券、军工、电力、教育等行业得到广泛应用,堪称目前市场化程度最高的一款龙芯企业级产品。
#p#
龙芯高性能计算机:基于龙芯2F和龙芯3A
2007年12月,首台采用国产高性能通用处理器芯片“龙芯2F”和其他国产器件、设备和技术的万亿次高性能计算机“KD-50-I”在中国科学技术大学研制成功。“KD-50-I”万亿次计算机采用单一机柜,集成了336颗“龙芯2F”处理器,理论峰值计算能力达到1万亿次/秒。“KD-50-I”采用了高密度节点设计技术,在高度不到4厘米的1U标准机箱内部紧密部署了12个处理单元,组成1U12P高密度节点结构,硬件系统采用龙芯2F处理器、华为千兆以太网交换机及曙光服务器前置机等,系统软件以开源软件为主,具有兼容性强、易维护、易升级、易使用等特点。
2009年是龙芯的转折年,龙芯3A、龙芯2F3、龙芯2号抗辐照SOC流片成功;龙芯2G和龙芯3A+完成流片;龙芯南桥、龙芯2G+和龙芯3B即将完成设计;龙芯2H和龙芯3C的设计也开始部署。在全面掌握65nm工艺的产品设计技术后龙芯开始32nm工艺的设计。龙芯3号在服务器、高性能计算机等领域的市场推广和应用研发也在快速发展。
2010年4月,中国科学技术大学和深圳大学联合研制成功基于新一代龙芯3A处理器的万亿次高性能计算机系统KD-60。KD-60在18U高的机柜中集成了80余颗“龙芯3A”四核处理器,理论峰值计算能力达到每秒1万亿次。与龙芯2F相比,龙芯3号制程工艺从90纳米变成了65纳米,主频1GHz,晶体管数量从4700万个变成了4.25亿个,从单核直接进入了四核(龙芯3A)和8核(龙芯3B)设计。与KD-50-I相比,KD-60体积减小了三分之二,相当于家用洗衣机的大小,整机功耗只有2381瓦,降低了56%。
KD-60系统硬件由10个1U计算节点(部署2块主板,共8个处理单元和1个监控单元)、1个2U服务节点和显示终端、2个1U的48端口千兆以太网交换机组成;系统软件仍然以开源软件为主,其中包括针对龙芯3A处理器体系结构专门优化的GotoBLAS 2数学函数库,以及自主研发的图形化系统监控软件 KD-60 Monitor 1.0。
据介绍,龙芯高性能计算机主要适合于高性能计算教学和创新型人才培养,可应用于有大规模科学与工程计算需求的相关学科研究,以及军事科学、国家安全和国民经济建设等诸多方面。
#p#
龙芯刀片服务器:基于龙芯3A
如果说中科大的龙芯高性能计算系统很大程度上仅局限于科研领域,那曙光新一代的龙芯服务器开始让龙芯3号走向产业化。
2010年4月,曙光高调发布新一代龙芯服务器:基于龙芯3A的刀片服务器CB50-A,可安装在曙光TC2600刀片机箱中。该产品同时采用红旗Redflag linux操作系统,兼容主流linux应用软件,是一款从刀片服务器硬件、底层软件、处理器到操作系统完全国产化的划时代服务器和高性能计算平台。
CB50-A采用双处理器架构,共有8个处理器核心,峰值性能达32Gflops,支持最大64GB内存,单刀片功耗不超过110W。CB50-A有很好的通用性,X86架构下具有源代码的信息服务和科学计算应用能够通过交叉编译的方式平滑的移植到龙芯刀片上。在一个42U高的机柜中,可安装6台TC2600,每个TC2600支持10片双路CB50-A,累计每个机柜最多拥有120个龙芯3A四核处理器,480个处理器核心,最大处理能力1920Gflops,最大功率不超过8KW,具有很高的计算密度和能效比。
曙光TC2600刀片服务器机箱
据介绍,目前曙光公司已经在龙芯刀片服务器上成功移植和优化了Apache、气象预报领域的MM5、生命科学领域的BLAST等10多个具有重要影响的行业应用软件,并与红旗linux操作系统、人大金仓数据库、天融信网络安全系统和织女星云计算软件等相关上下游产业链结成紧密协作。曙光总裁历军表示,龙芯刀片服务器和机群主要针对科研、机关、军队、公安系统、信息服务领域、石油气象等领域,预计2010年龙芯刀片的销量将达到3000片,到2014年达到2万片的规模。
#p#
未来的龙芯服务器和龙芯超级计算机
2009年,中科院计算所已经明确了龙芯系列处理器的定位,其中龙芯1号CPU及其IP主要面向嵌入式应用,龙芯2号CPU及其IP面向高端嵌入式和桌面应用,龙芯3号多核CPU面向服务器和高性能机应用。据规划,龙芯3号将有多个版本:已经发布的四核龙芯3A,后续将推出的八核龙芯3B及16核龙芯3C等。
曙光计划今年中推出的下一代千万亿次超级计算机曙光6000,将使用部分龙芯3A来构建。另外,下半年曙光将推出基于龙芯处理器的Twins高密度刀片,双路和Twins机架服务器等,今年底明年初还会推出四路SMP刀片和四路SMP机架服务器,以及为特殊单位定制的保密服务器等。
#p#
龙芯的四个发展阶段
自从我们在2001年初正式开始龙芯处理器的设计以来,龙芯已经走过了八年的历史。在这八年中,我们从无到有地掌握了高性能处理器的核心技术及其质量设计技术,我们设计的龙芯系列处理器达到了世界先进水平(最近流片的四核龙芯3号处理器采用65nm工艺,主频1GHz,晶体管数目达到4.25亿个);我们进行了龙芯产业化的推广并取得了很好的成绩,龙芯处理器在军工和工业控制、网络以及低成本电脑等方面的应用正在蓬勃展开;我们形成了龙芯处理器的系列产品,明确了龙芯1号CPU及其IP面向嵌入式应用,龙芯2号CPU及其IP面向高端嵌入式和桌面应用,龙芯3号多核CPU面向服务器和高性能机应用的定位;我们打造了一支以“科研为国分忧、创新为民造福”为理念的,勇于拼搏、敢于创新、求实奋进的龙芯团队。
总的来说,龙芯的发展需要经历技术积累、产业突破、产业积累以及形成体系四个发展阶段。
1)“十五”期间是龙芯的技术积累阶段。
我们从2001年初开始龙芯处理器设计,2002年8月龙芯1号成功运行,解决“有了”的问题,坚定了国内设计通用CPU的信心,奠定了在国内设计通用CPU设计的优先地位。
在此基础上我们开始每十五个月左右性能提高3倍的“三级跳”技术跨越。2003年10月调试成功的龙芯2B性能是龙芯1号的3倍,2004年12月调试成功的龙芯2C性能是龙芯2B的3倍,2006年3月调试成功的龙芯2E性能是龙芯2C的3倍。通过上述“三级跳”,实现了我国高性能通用CPU的跨越发展,在单处理器设计方面达到了世界先进水平。
其中龙芯2E采用90纳米CMOS工艺设计和生产,内含5000多万个晶体管,最高主频达到1.0GHz,最高双精度浮点运算速度每秒40亿次,实测SPEC CPU2000性能超过500分,达到中低档奔腾IV处理器的水平,并且具有功耗低、安全性高等特点。龙芯2E是当时除了美国之外世界上性能最高的CPU产品。
通过“十五”期间的积累和努力,我们形成了世界先进的通用CPU设计的技术能力。在“十五”期间,我们也进行了产业化的尝试,成立了神州龙芯公司和江苏常熟龙芯产业化基地;龙芯1号进行了几千片的小批量生产,龙芯2C进行了几千片的小批量生产,龙芯2E进行了几万片的小批量生产;上述芯片都支持一些用户开展了试点应用,如基于龙芯1号的网络计算机、基于龙芯2C的CPCI工控系统、基于龙芯2C的福珑迷你电脑、基于龙芯2E的CPCI工控系统、基于龙芯2E的福珑迷你电脑等等。
但十五期间的产业化工作还是属于尝试的性质,主要是提高了认识,积累了经验,增加了信心,锻炼了队伍。除了有几个应用(如基于龙芯2E的CPCI工控系统)取得一定的成功外,其它应用没有取得明显的成功。
2)“十一五”期间是龙芯产业化的突破阶段。
在这个阶段,龙芯的核心技术在“十五”积累的基础上进一步取得突破,并实现系列化和平台化;龙芯的产品开始具有国际竞争力,龙芯的应用和产业化在若干点上取得重要突破;龙芯团队对龙芯产业化的认识得到明显提高,龙芯的产业定位逐步明确,产业化实体基本形成并逐步实现盈利能力。
2007年7月流片成功的龙芯2F在性能、功耗、成本等方面已经具有初步的国际竞争力,最近设计的龙芯2G和龙芯3号在技术上与国际同类产品相比在具体应用中具有明显的比较优势。
在近几年的产业化过程中,我们很幸运碰上了两个好“老师”。我们与意法半导体的合作使我们从态度上和方法上都学会了芯片的质量设计,虽然刚开始时我们觉得他们的要求过于苛刻,但最后我们学会了大规模量产芯片的质量设计方法,这种方法和一般的ASIC设计是有很大不同的;我们与广达的合作使我们从态度和方法上都学会了硬件系统的质量设计。
经过多年的研发和应用推广,已经逐步形成了龙芯1号CPU及其IP面向嵌入式应用,龙芯2号CPU及其IP面向高端嵌入式和桌面应用,龙芯3号多核CPU面向服务器和高性能机应用的定位。
到2008年底龙芯IP及芯片在以军工为代表的工控、网络安全及低成本电脑等方面取得了不少点的突破,IP和芯片销售均已经达到十万片规模,系统销售已经达到万套规模,龙芯的IP和芯片客户达到几十个,一些国际知名厂家如广达、意法半导体、中文2000等成为龙芯的战略合作伙伴。
龙芯的两个主要产业化实体北京龙芯中科技术服务中心有限公司和江苏龙芯梦兰股份有限公司的定位初步明确,并开始形成纯商业行为的销售。再经过两年的努力,到十一五末,在国家核高基重大专项的支持下,龙芯1号IP、龙芯2号系列芯片(2G、2H)、龙芯3号系列芯片(3A、 3B)的研发和产品化完成,龙芯的产品具有更强的竞争能力,上百家企业参与到龙芯的产业环境中来,龙芯的IP、芯片和系统产品形成百万片规模的销售,龙芯的产业化实体达到亿级规模的销售并初步实现自我发展,龙芯的产业化实现突破。
3)“十二五”期间是龙芯产业化的积累阶段。
在这个阶段,龙芯的核心技术研究进入世界领先行列,产品具有更强的竞争力,产学研关系进一步理顺,龙芯的产业化实体逐渐由小到大、由弱到强,龙芯的应用全面铺开并在主流的电脑市场占有一定的份额,龙芯的产业环境中有几百到上千家企业,辐射出千亿规模的产值。
4)“十三五”期间是龙芯产业体系形成的阶段。
在这个阶段,龙芯产业化实体进一步加强,企业成为龙芯创新的主体,龙芯的产品在计算机市场达到“三分天下有其一”的目标,龙芯技术引领信息产业的发展,龙芯的产业环境中有上千家企业,辐射出万亿规模的产值,龙芯产业体系建设基本完成。
【编辑推荐】