NVIDIA***科学家在近日召开的Supercomputing 2010大会上透露了一个重要消息:NVIDIA未来将推出一款为亿亿级计算机提供强大支持的图形芯片——Echelon。在这个由美国国防部资助的项目下,NVIDIA将与其他三个团队竞争,在2018年前开发出这种高性能计算系统。
NVIDIA所谓的“Echelon”系统目前只是一个纸面上的设计,仅得到仿真支持,因此在最终开发出来之前可能会有大幅度改动。这种芯片设计的元素最终将覆盖NVIDIA从手持设备到超级计算机图形产品的范围。
NVIDIA负责Echelon项目的***科学家Bill Dally表示:“如果你能在一定规模下做好一件事,那么在另一个规模下也可以实现。NVIDIA的重点是所有产品的每瓦性能,我们正在重新利用从Tegra到Tesla芯片的设计。”
Dally描述了一种图形内核,仅用10皮焦耳的能源就可以处理一个浮点操作,远低于NVIDIA现有Fermi芯片的200皮焦耳。8个这样的核心可以封装到一个流处理器群(Streaming Multiprocessor,SM)上,128个SM可封装到一个芯片内。
结果将是一个千核的图形芯片,每个核心在一个时钟周期内可执行4个双精度浮点操作——相当于一个芯片实现10万亿次性能。Dally表示,也许某一天,封装了8个这样核心的芯片将被用于手持设备中。
#p#
核心数量是目前NVIDIA高端GPU的2倍
Echelon芯片封装的核心数量是目前NVIDIA高端GPU的2倍。不过,目前的核心在每个周期内只能处理1个单精度浮点运算,Echelon是4个。
这种芯片的很多优点都是来自于对内存的使用。Echelon芯片将采用256MB SRAM内存可以动态配置以满足应用需求。
例如,这个SRAM可以分割为6个缓存层,每个大小可变。在***层中,每个核心可以有它自己的缓存空间。
这么做的目标是让数据尽可能接近处理元素,减少在芯片之间迁移数据的需求,避免能源浪费。这种SM将带有一个处理器寄存器层,匹配缓存层中的位置。此外,该芯片将采用一种广播机制,一个任务的结果就可以被任何需要该数据的节点进行共享。
为了减轻编程负担,该设计可采用图形处理器和传统处理器核心的缓存特性。实际上,设计多核处理器方案是目前计算机科学家面临的主要挑战之一。
Dally表示:“我们将看到编程模型发生巨变。在高性能计算领域,我们从量化Fortran走向MPT,现在我们将为下一个十年的发展准备新的编程模式。”
他说:“我们认为它应该是CUDA技术的演进。但也有例如OpenCL、OpenMP和微软DirectCompute这样的方法。”
NVIDIA的Echelon系统将与来自Intel、MIT和Sandia National Labs的团队竞争,每个团队都采用不同的方法来搭建高效亿亿级系统。
Ubiquitous High Performance Computing是由美国高级防御研究计划局资助的项目。DARPA向个团队下达任务,在2014年之前开发出用于用于能耗57千瓦机架原型计算机中的petaflop级原型系统。这种系统将被用作在2018年之前创建亿亿级系统的构建块。
【编辑推荐】