Graphcore卢涛:仅把NVIDIA作为竞争对手,力争中短期实现市场第二的目标

原创
服务器 芯片
IPU-M2000是目前世界上继英伟达GPU、谷歌TPU之后,全球范围内第三个公开发布的能够训练BERT-Large模型的AI处理器,Benchmark blog、Performance results table等已在Graphcore官网发布上线。

  【51CTO.com原创稿件】“Graphcore希望在未来几年之内,能够真正在数据中心AI训练和推理批量部署,在发货以及体量上,做到除英伟达以外的另一个头部企业地位,这是我们中短期的目标。”这是2020年12月17日下午,Graphcore高级副总裁兼中国区总经理卢涛在与媒体交流中,分享的Graphcore对于未来市场的目标规划。

[[361133]]

  此次媒体交流会,以PyTorch最新发布的面向IPU的PyTorch产品级版本和Graphcore发布的Poplar SDK 1.4,以及7月份发布的第二代IPU产品,即IPU-M2000为主要内容。会上,Graphcore通过一系列的对比测试,展示了IPU-M2000出色的性能表现,并通过成绩展示给行业用户注入了一针催化剂,力争在巨头横亘的竞争中脱颖而出,抢占未来市场。

  IPU-M2000:能够训练BERT-Large模型的AI处理器

  Graphcore今年发布的IPU-M2000产品,是一款即插即用的机器智能计算刀片,搭载第二代Colossus IPU处理器GC200,采用7nm制程工艺,由Poplar软件栈提供支持,易于部署。

  据卢涛介绍,IPU-M2000是目前世界上继英伟达GPU、谷歌TPU之后,全球范围内第三个公开发布的能够训练BERT-Large模型的AI处理器,Benchmark blog、Performance results table等已在Graphcore官网发布上线。

  据介绍,基于MK2 IPU的IPU-M2000的benchmark覆盖了很多模型的训练结果,包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型,MCMC等传统机器学习模型。

  相比V100,IPU-M2000在ResNet的吞吐量提升了4倍,ResNeXt的吞吐量提升了5.4倍,EfficientNet的吞吐量达到了18倍,Deep Voice3达到了13倍。此外,Graphcore与马萨诸塞大学、Facebook一起使用近似贝叶斯计算的方式做流行病的模型分析,与CPU相比IPU速度提高了30倍,与GPU相比提高了7.5倍。

  卢涛表示,Graphcore已经加入了MLPerf管理机构MLCommons,并将在2021年上半年正式参与MLPerf性能测试。

  IPU-POD64正式交付:性能出色,纵向扩展和横向扩展更加灵活

  IPU-POD64是由16台IPU-M2000组成的AI计算解决方案,该方案实现了x86和IPU计算的解耦,具备了更加灵活的纵向扩展和横向扩展能力。

  在纵向扩展方面,IPU-POD64能够实现从一台IPU-M2000到一个IPU-POD16(4台IPU-M2000),再到一个IPU-POD64(16台IPU-M2000)的软件透明扩展,使得编译好的软件在一台IPU-M2000和一个IPU-POD64都能够运行使用。在横向扩展方面,多个IPU-POD64最多可以支持64000个IPU组成的AI计算集群。

  卢涛告诉记者,他们在跟很多头部互联网公司交流中认为,当前绝大部分单一工作负载最大不会超过IPU-POD64。也就是说,对于当前最主流的工作负载来说,1个IPU-POD64就能够满足绝大多数工程师对于分布式机器学习、分布式机器学习框架、分布式通信的要求。

  Graphcore中国工程总负责人,AI算法科学家金琛还通过一组详细的测试对比,分享了IPU-POD64在各模型上的训练和推理等相关数据。

  在IPU-POD64上,PopART BERT-Large的端到端的训练时间只要13.2小时,相比1个DGX-A100,BERT-Large能在IPU-POD64上实现5.3倍的提升,相比3个DGX-A100,则能够实现1.8倍的提升。

  在EfficientNet-B4上,IPU-M2000的推理吞吐量比目前市面上最新GPU提升超过60倍,时延缩短超过16倍。同时,IPU-M2000在面向NLP、语音和金融等不同领域模型训练和推理的性能结果也表现不错。

  卢涛告诉记者,创新型的机器学习模型在IPU-M2000和IPU-POD上能够实现最先进性能,一是因为IPU-M2000作为一个最新的硬件产品形态,使用了最新的硬件的工艺:7nm的制程、纵式的、分布式的片上存储架构,tile和tile之间拥的47.5TB/s的高速交互带宽。二是因为在软件上、通过在编译器、算子、矩阵乘法上面的充分优化,使得性能显著提升。

  在PyTorch的支持上,IPU-M2000在PyTorch代码里引入了PopTorch的轻量级接口,通过这个接口,用户可基于当前的PyTorch模型做一个非常轻量级的封装,通过这个封装即可无缝地在IPU和CPU上运行模型。此外,当前的Poplar SDK 1.4版本可同时支持模型并行和数据并行。

  据介绍,IPU-POD64已经在全球范围内发货,包括中国、北美、欧洲以及其它区域。

  目标直指NVIDIA,中短期目标市场第二

  虽然Graphcore的产品和解决方案有着不错的性能表现,但在这个巨头横亘当中,想要取得更高的市场占有率,也并非易事。

  谈及面对巨头带来的挑战时,卢涛认为Graphcore唯一的挑战就是英伟达。他表示,英伟达在AI加速计算的整个软硬件生态中,包括英伟达GPU、CUDA、开发者、社区等,有着比较强的优势,但Graphcore对未来充满了信心。

  卢涛表示,Graphcore的处理器通过不同的测试充分体现了自己的价值,不但证明了使用IPU能够在NVIDIA A100的主流应用领域中获益,而且还解决了一些GPU不能解决的问题。卢涛同时强调,客户在考虑为一个新的软硬件平台买单时,第一考虑的是做这件事情能够获得多少收益;第二考虑的是需要多少成本,包括软硬件的迁移成本。在这些方面,IPU-M2000的优势已经相当明显。Graphcore认为IPU有自己的价值点和定位,只要能够为客户带来价值,总是会有客户来买单的。

  据介绍,为了实现市场目标,Graphcore已经建立了相对立体的渠道:一是通过传统的toB IT分销渠道,比如神州数码等对产品进行销售;二是与服务器品牌厂商合作,如戴尔、浪潮,搭载他们的服务器产品对外销售;三是与“云”的合作伙伴建立了紧密的联系,通过云服务的形式来将IPU产品落地。

  卢涛表示,今年早些时间启动了Graphcore全球精英伙伴计划,与合作伙伴一起共同推进市场工作,同时也和合作伙伴共同进行社区建设,从不同的角度反过来助力渠道建设。

  “Graphcore面对的压力最主要还是来自于英伟达。”卢涛表示,英伟达这家“巨兽”也在向前发展,继续研发芯片,预计未来的两年内可能就会迭代一次。从深度上来看,NVIDIA不停地优化软件;从广度上来看,NVIDIA在不停地做垂直领域中的应用组件。就目前而言,Graphcore从体量和生态上跟英伟达相比,肯定还是有差距的。但是,Graphcore只有在聚焦的领域跑得更快,双方之间的距离才会越来越短,甚至在某些领域快速超过英伟达。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:张诚 来源: 51cto
相关推荐

2012-03-13 09:55:14

iPAD

2012-12-25 10:45:12

InstagramPokeFlickr

2020-01-07 16:08:49

数据存储磁带蓝光存储

2011-09-19 13:28:00

思科Juniper华为

2011-06-24 08:13:31

SEO

2012-08-22 10:18:05

2011-05-05 13:14:33

地产行业企业转型

2011-06-30 15:27:17

SEO

2012-09-18 13:30:21

2013-03-01 09:09:23

2011-05-23 09:30:03

英特尔ARM

2011-06-16 20:17:55

SEO

2022-12-26 08:48:42

2012-09-05 13:57:14

红帽云计算企业级软件

2022-01-25 11:29:47

Graphcore

2010-04-13 10:44:17

AMD Opteron

2009-05-07 09:07:40

FacebookFirefox浏览器

2011-05-23 18:52:22

seo

2011-06-01 10:25:32

施密特谷歌苹果

2017-03-16 07:28:35

科技新闻早报
点赞
收藏

51CTO技术栈公众号