NVIDIA TensorRT 3极大推进超大规模数据中心人工智能推理-51CTO.COM

　　2017 年 9 月 26 日 — NVIDIA公司 (纳斯达克代码：NVDA) 今日推出全新NVIDIA® TensorRT 3 AI 推理软件，该软件能够大幅提升从云端至终端设备(包括无人驾驶汽车和机器人)的推理性能并降低成本。

　　TensorRT 3 与NVIDIA GPU的结合能够基于所有的框架、为诸如图像和语音识别、自然语言处理、视觉搜索和个性化建议等人工智能服务2提供超快速且高效的推理。此外，TensorRT 和NVIDIA Tesla® GPU加速器的速度可达到CPU 的40倍，而相较于基于 CPU 的解决方案，成本仅为其十分之一。

　　NVIDIA创始人兼首席执行官黄仁勋先生表示：“互联网公司正在加快脚步将人工智能注入被数十亿用户所采用的服务之中。因此，AI推理工作量也呈指数级增长。NVIDIA TensorRT是全球首款可编程推理加速器。借助CUDA的可编程性，TensorRT将能够加速助推深度神经网络日益多样化、复杂的增长趋势。通过TensorRT的大幅度加速，服务提供商能够以经济实惠的成本部署这些计算密集型人工智能工作负载。“

　　已经有超过 1,200 家来自各行各业的公司开始采用 NVIDIA 推理平台，借助此从数据中获得全新洞察，并为企业和消费者部署智能服务。亚马逊、微软、Facebook和谷歌、以及阿里巴巴、百度、科大讯飞、京东、腾讯等中国领先企业均已开始采用 NVIDIA 推理平台。

　　SAP首席信息官Juergen Mueller表示：“NVIDIA公司的人工智能平台在Tesla GPU基础上使用了TensorRT软件，这一前沿的领先技术满足了SAP不断增长的推理需求。TensorRT和NVIDIA GPU可实现实时的服务交付，具有最强大的机器学习性能和多功能性，能够满足客户所需。”

　　京东人工智能和大数据部门总监 Andy Chen 表示：“京东采用 NVIDIA GPU 和软件在数据中心内开展推理工作。通过采用 NVIDIA的 Tesla GPU 和 TensorRT，我们能够同时针对1,000 个高清视频流进行实时推理，而服务器数量则减少至原来的二十分之一。NVIDIA 的深度学习平台为京东带来了卓越的性能与效率。”

　　TensorRT 3 是一款针对人工智能应用生产部署的高性能优化编译器和运行时引擎，用于在生产环境中部署深度学习程序。它能够快速优化、验证并部署经过训练的神经网络，从而在超大型数据中心、嵌入式 GPU 或车用 GPU 平台上开展推理工作。

　　它能够确保高度精确的INT8 和 FP16 网络执行，每年能为数据中心运营商节省数以百万美元计的采购和用电成本。借助它，开发者只需短短一天就能完成神经网络的训练，打造一个比其训练框架快3至5倍的可部署推理解决方案。

　　为进一步加速人工智能发展，NVIDIA 还推出了其他软件，其中包括：

　　· DeepStream SDK：NVIDIA DeepStream SDK能够大规模提供实时、低延迟的视频分析。它能够帮助开发者集成先进的视频推理能力(包括 INT8 精度和 GPU 加速转码)，为采用人工智能的服务提供支持，例如使用单一 Tesla® P4 GPU 加速器，对多达 30 个高清流进行实时物体分类和场景解析。

　　· CUDA 9：NVIDIA 加速计算软件平台CUDA®的最新版本。该版本支持NVIDIA Volta架构，库的速度提高了 5 倍，为线程管理提供了新的编程模型，并且更新了调试和分析工具，能够为 HPC 和深度学习应用程序提供加速。CUDA 9 专门进行了优化，能够在采用 Tesla V100 GPU 加速器时提供最大性能。

　　数据中心推理

　　数据中心管理者需要持续权衡性能和效率，从而确保服务器群能够处于最高生产力状态。Tesla GPU 加速的服务器能够代替超过一百个超大规模 CPU 服务器来运行深度学习推理应用程序和服务，从而节省宝贵的机架空间、降低能耗和冷却需求，实现高达 90% 的成本降幅。

　　NVIDIA Tesla GPU 加速器可提供出色的推理解决方案，为深度学习推理工作负载实现最高的吞吐量、最佳的效率和最低的延迟，借助人工智能驱动全新的人工智能体验。

　　针对无人驾驶汽车和嵌入式应用程序的推理

　　借助 NVIDIA 的统一架构，所有深度学习框架中的深度神经网络均可通过数据中心内的 NVIDIA DGX™ 系统进行训练，然后部署至包括机器人和无人驾驶汽车在内的各类设备之中，在终端实现实时推理。

　　北京图森未来科技有限公司是一家开发无人驾驶卡车技术的初创公司。该公司在实现 TensorRT 优化后，推理性能提高了 30%。今年6 月，通过采用 NVIDIA GPU 和摄像机作为主要传感器，该公司成功完成从圣迭戈到亚利桑那州尤马长达 170 英里的 L4级试车。借助由 TensorRT 带来的性能提升，图森未来得以分析更多摄像头数据，并在无人驾驶卡车上添加全新的人工智能算法，且这一切不会对响应速度造成任何影响。