【WOT2018】大咖论道:优化硬件为人工智能带来无限可能

原创
服务器
在人工智能领域,传统的芯片计算架构已无法支撑深度学习等大规模并行计算的需求,这就需要新的底层硬件来更好地储备数据、加速计算过程。基础层主要以硬件为核心,其中包括GPU/FPGA等用于性能加速的硬件、神经网络芯片、传感器与中间件,这些硬件是支撑人工智能应用的前提,为整个人工智能的运算提供算力。

【51CTO.com原创稿件】2018年11月30日-12月1日,WOT2018全球人工智能技术峰会在北京·粤财JW万豪酒店盛大召开。60+国内外人工智能一线精英大咖与千余名业界专业人士齐聚现场,分享人工智能的平台工具、算法模型、语音视觉等技术内容,探讨人工智能如何赋予行业新的活力。两天会议涵盖通用技术、应用领域、行业赋能三大章节,开设13大技术专场,如机器学习、数据处理、AI平台与工具、推荐搜索、业务实践、优化硬件等,堪称人工智能技术盛会。

在人工智能领域,传统的芯片计算架构已无法支撑深度学习等大规模并行计算的需求,这就需要新的底层硬件来更好地储备数据、加速计算过程。基础层主要以硬件为核心,其中包括GPU/FPGA等用于性能加速的硬件、神经网络芯片、传感器与中间件,这些硬件是支撑人工智能应用的前提,为整个人工智能的运算提供算力。针对这个话题,本届WOT2018峰会特别设置了《优化硬件》分论坛。来自WRTnode、浪潮商用机器有限公司、北京小谛科技有限公司、北京探境科技有限公司的四位大咖围绕“人工智能如何进行优化硬件”进行了主题分享。

边缘测AI计算平台技术及应用场景

用Tensorflow训练出来的摄像头采集识别模型如果想用一颗7号电池跑一年应该怎么办? WRTnode创始人罗未在《边缘测AI计算平台技术及应用场景》的演讲,为大家梳理了当下已经商用的低功耗边缘测神经网络计算平台技术,以及相应的应用场景和商业上的一些问题。

WtRTnode 创始人 CEO 罗未

常见的边缘测AI平台主要有三种,第一种是专用VPU加速芯片,典型代表 Intel Movidius,已经普遍应用于大疆的产品中。第二种是ARM CMSIS-NN 框架 on Cortex-Mx,其特点是低功耗、便宜。第三种则是万能的Linux平台 with or without OpenCL,特点在于非常普遍。

作为一家物联网硬件端开发与制造供应商,WRTnode除了支撑边缘测AI平台公司进行基础设施的定制、开发和供应链工作外,也推出了在行业物联网领域的产品。在整个智能制造产业链条中,一个典型的工厂要有各种工业设备,包括机械臂、减速电机、机床、履带、仪表等,这些都是传统厂商的市场。往上一层,PLC、控制器的主要供应商有西门子、三菱、欧姆龙。而后需要一个物联网的连接层,包括网关、传感器,WRTnode也是主流的供应商之一。再往上面就是物联网云服务PaaS层,现在AWS、阿里云、华为云、移动OneNET等厂商都在推出相应产品。最上面是应用层,也就是物联网应用集成,包括资产管理、能耗、智能制造等,主要供应商有SAP、Oracle、树根物联。

据介绍,WRTnode在工业物联网边缘计算领域拥有完善的软硬件产品。在硬件产品方面,包括边缘计算网关NodeX、无线传感器套件体系NodeS,具有低功耗,带电源,无线传感器工作半年以上;体积小,通过各种专业认证,安装实施简便体验好;软件实施便捷、难度低等特点。 在开发框架方面,WRTnode也推出了Node.system物联网边缘计算开发框架。

WRTnode物联网连接层产品-NodeX

  • 边缘计算网关产品,多种通信联接方式的整合:2/3/4G移动网络、NBiot、WiFi、有线以太网络、工业级Zigbee、Lora,并自带Modbus接口直接连接PLC、仪表、控制器等工业设备;
  • 12-24V直流宽幅取电,自带支持1小时以上的备用电池。内置最大256GB的存储空间,通过Zigbee的扩展可最多联接64个NodeS无线外设采控器;
  • 使用Linux操作系统,由WRTnode提供Node.system物联网边缘计算开发框架,可使用多种语言对采集和控制行为进行配置开发。

WRTnode物联网连接层产品-NodeS

  • 无线外设采控器产品,使用工业级Zigbee、Lora与NodeX联接。具有多种型号,包括Modbus接口产品直接连接PLC、仪表、控制器等工业设备;各种传感器版本如温湿度、旁路功率采集、各种气体浓度等数十种行业场景传感器数据采集和轻量级控制版本产品;
  • 自带电池支持6个月以上使用,支持microUSB充电,1到2个小时即可充满电;
  • 自动与环境中的NodeX组网,配置简单。每台NodeX最多可接入64台NodeS;
  • NodeS的所有行为由NodeX的Node.system物联网边缘计算开发框架进行配置管理,无需单独编程。由NodeX中的行业设备驱动和解析包管理,NodeS可以采集和控制各种PLC、仪表、控制器,采集各类环境数据。

Node.system物联网边缘计算开发框架

  • Node.system基于Linux内核,为C/C++、Go、python、JavaScript提供了物联网边缘计算的开发框架;
  • 开发者使用以上任意语言开发包,即可进行对包括:硬件数字模拟IO、传感器和控制器、网络协议、云服务、通讯管理、各种PLC或仪表或控制器、专用关键算法(如多媒体压缩、语音语意、图像识别、SLAM等)提供形式一致的、消息驱动响应式封装;
  • 底层提供本地消息总线,并提供双向回调的机制,提供网络、http、CLI三种API形式;
  • WRTtnode团队并提供持续的维护服务。

硬件重构与企业AI就绪的Power平台

计算的发展快速推动的人工智能的发展。人工神经网络在AlexNet、GoogleNet、Resnet等高级模型已经需要Exaflos计算量。人工智能需要的训练计算能力要求越来越大,AI计算平台在不同的应用领域会遇到多重瓶颈,如计算能力的瓶颈、延迟的瓶颈、通信能力的瓶颈。如何解决这三个核心问题?

浪潮商用机器有限公司技术支持部售前工程师 薛松

浪潮商用机器有限公司技术支持部售前工程师薛松在《硬件重构与企业AI框架就绪的Power平台》的演讲中指出,AI的快速发展需要更强大的计算能力,深度学习的网络变的更大,数据集变的更大,因此,需要服务器平台更加优化,包括更强大的计算能力,更高的内存与I/O吞吐,更线性的分布式架构,更低的功耗/性能比。

AI平台设计的核心在于提升单位密度计算能力,实现可伸缩的计算规模和创造更高效的计算构架,解决这些问题的难度依次递增。提高单位计算能力的产业界经典的产品是NVIDIA-DGX1,通过硬件解耦实现资源的物理池化和动态重构实现可伸缩性。

在此方面,浪潮商用机器日前推出了为云和AI的POWER横向扩展服务器产品,包括通用场景、全模块化设计的FP5280G2;内存应用场景、超高内存容量的FP5290G2;以及面向HPC和AI平台、CPU-GPU高速互连的FP5295G2。其中,FP5295G2服务器专为AI 而重新设计了IT 基础架构,从系统架构层面进行了创新设计,提供支持AI和HPC的最佳平台,企业可充满信心地部署深度学习框架和加速数据库等数据密集型工作负载。

在处理器层面,为AI而生的POWER9,与POWER8相比性能提升40%,拥有14纳米工艺,17层布线,80亿晶体管,其拥有高性能核心、增强带宽、NVIDIA GPU,以及差异化互联等优势,适用于计算密集型场景,具体来说拥有以下几大亮点:

  • 增强的架构体系:SMT8 并发多线程,120MB 片上L3 缓存;
  • 独特的高带宽设计:片内带宽:  7TB/s ,高速外联:25 GB/s;
  • 领先的硬件加速:NVLink 2.0,CAPI 2.0,New CAPI;
  • 全新的微架构:对称数据处理引擎设计,更高效的指令流水线,更高的单线程性能;
  • 云和虚拟化创新:工作频率视负载量而变;
  • 最新的 I/O 子系统:PCIe Gen4。

POWER处理器直接采用NVLink互联总线,完全摒弃了PCIe互联模式,总线架构清晰简洁,POWER9处理器与NVIDIA Tesla V100 GPU通过NVLink实现CPU-GPU,GPU-GPU之间的直接互联,NVLink支持 CPU-GPU共享内存,也就是实现Cache一致性,从硬件上保障了地址空间连续性,简化编程过程。

FP5295G2与PowerAI深度学习软件平台无缝融合,轻松打造AI应用平台。支持最流行的机器学习框架,实现企业级的AI基础架构,并能够通过企业级,几小时便可完成通用框架部署企业级PowerAI DL框架,简化深度学习部署于性能, 为AI用户提供更强悍、更简单的端到端工具链。可以从一个节点开始,高效地扩展至堆栈或数千个节点,且它们的性能近乎是线性增长的。

FP5295G2面向金融、制造、医疗及HPC等领域而专门优化,在金融反欺诈、产品质量控制与分类、医疗影像及病历分析以及HPC集群等应用场景中,可大幅缩短深度学习算法训练的时间。

最后,薛松表示,浪潮商用机器正在携手客户实践 AI 创新,包括三个方面:

  • AI创新平台,通过AI应用测试平台可帮助合作伙伴快速验证AI应用;
  • AI联合方案,可与客户开发 AI 联合解决方案,分享业务提升与AI价值;
  • AI联合生态,可与行业ISV建立创新中心,共同创造健康的AI商业生态。

氖星商用机器人大脑

北京小谛科技有限公司创始人兼CEO彭军辉在《氖星智能商用机器人大脑——我们做中国的亚马逊Alexa》的演讲中表示,当然,机器人行业正在面临几大痛点,包括答非所问,语义理解正确率低;不能理解上下文;要根据脚本念才能正确回答;离不开说明书;需要穷举各种问法;跨场景转换困难等。

北京小谛科技有限公司创始人兼CEO 彭军辉

针对这些痛点,他认为,机器人需要大脑而不是操作系统,而自然语言问答技术则是机器人大脑的核心技术。目前,很多公司使用搜索技术做问答,甚至用考核搜索的指标考核问题。但实际上,搜索和问答是NLP(自然语言处理)的两个不同领域,它们有着巨大差别,主要存在以下四大差异:

  • 关键技术:搜索是关键字相关性查询,而问答则是语义相似性计算;
  • 输出结果:搜索会呈现结果列表,而问答则只有唯一答案;
  • 关键指标:搜索考量召回率和准确率,而问答则是差异性、同一性、模糊性、一致性;
  • 应用方向:搜索应用于搜索引擎、大数据,而问答则应用于机器人。

他指出,同行许多不研究技术,只拿网上开源的算法做产品。许多高大上的技术(词向量、TF-IDF),其实只是从句子里计算关键字。而小谛科技通过突破关键技术,制定了差异原则(分析语义细微差异)、同一原则(处理一个语义的多种表达)、模糊原则(容忍用户输入的小错误)、一致原则(说话不前后矛盾)四大技术标准,实现了两大技术创新:

  • 氖星智能面向问答的分词技术,从分词的基础上做了创新,增加了话题和上一句两个维度;
  • 氖星智能面向问答的关键字提取技术,用语言学的方法从句子里提取关键字,我们竞争对手用数学的方法。

基于这些技术创新,小谛科技推出了氖星商用机器人大脑。据介绍,氖星智能是人机自然语言交互的IT系统,它让每个B端客户可以建立自己的问答机器人,为他们的用户提供人机自然语言交互服务。氖星智能建立在小谛机器人DSA自然语言处理技术之上,问答准确率大于80%;对话支持上下文,交互自然流畅。氖星智能是新的流量入口,可以在客服机器人中使用,也可以在智能硬件的对话系统中使用,是商用机器人的大脑,主要包括以下创新:

  • 输出多媒体化:以往的机器人回答问题都是单一的语音输出,或者图片、视频和语音配合不好。让机器人智能理解互联网内容,让机器人回答配合网页一起输出,在网页上呈现多媒体元素;
  • 人人参与:降低了机器人制作的门槛,让每个个人、每个企业可以建立自己的机器人;
  • DSA语义理解:场景化存储和处理知识。按照词在句子中的语法作用提供关键字,并支持上下文处理;
  • 系统的平行结构:从一个功能到另一个功能都是从根目录开始。想进入就进入,想退出就退出,不想进入不进入,不想退出不退出。

突破“Memory Wall”的新型AI芯片架构

北京探境科技有限公司研发副总裁宋健带来了题为《存储优先AI芯片架构——突破“Memory Wall”的新型AI芯片架构》的精彩分享。他在分享中指出,在传统的冯·诺伊曼体系结构中,计算单元和存储单元是相互独立的。每次计算单元需要将数据从存储单元中提取出来,处理完成后再写回存储单元。近年来处理器性能飞速提升,但是访问存储器速度并没有相应的提升,所以访问存储器的速度无法跟上处理器消耗数据的速度,导致处理器的计算性能无法充分发挥,也就是业界所说的“存储墙”(Memory Wall)问题。

北京探境科技有限公司研发副总裁 宋健

面对存储墙问题,如果还是以计算为中心的指令抽象化的方向做文章,结果只能是让抽象层更加远离任务调度的实质,使得存储问题更加的恶化。换句话说,“类CPU架构”适用于计算复杂度高,存储复杂度低的环境,当面对深度学习这个新形势时,其本身的局限性导致稀缺资源没有得到很好的利用和处理,只有重新思考深度学习所面临的存储墙问题,才能得到突破的AI芯片架构。

探境科技通过重新思考存储和计算的关系,以存储驱动计算,直接从应对“三高”特性出发设计与“类CPU架构”完全不同的计算架构,即存储优先架构SFA(Storage First Architecture)。SFA架构并不是仅仅针对某一款芯片而提出的架构,而是一个高层次的计算体系结构,可以在当下的主流集成电路工艺下实现,并符合商用化产品的成本考虑。

据悉,SFA架构是一个以存储调度为核心的计算架构。数据在存储之间的搬移过程之中就完成了计算,计算对于数据只是一种“演变”,具有以下特点:

  • SFA架构实现了将存储、计算、调度算法一体化,通过软硬件协同工作,控制器在各存储和计算节点进行最优的映射,并可以通过OTF的方式动态更新调度算法;
  • SFA架构使用了分布式的存储和分布式的计算,可以达到较高的内部带宽和计算效率;
  • SFA架构的存储器是抽象概念,物理上可以同时包括片上SRAM和片外DRAM,对模型大小没有限制;
  • SFA架构采用数据驱动的方式,可以支持未来的可计算SRAM或其他新型存储,进一步提高计算效能;
  • SFA架构在运算上采用的新型卷积流式化计算方法,优于直接卷积计算或者im2col矩阵变形,这种计算方法实现了卷积计算的“全配置支持、零冗余数据、零中间数据”;
  • 对于非平衡的通用计算,可以通过计算层附着的不同算子加以支持。SFA架构可以支持高差异化的计算类型,并且不同的计算范式互不干扰;
  • SFA架构支持层融合和数据压缩,包括动态压缩和静态模型压缩,等效于增大外部带宽;
  • SFA架构天然支持高并发的计算,也从根本上克服高并发引起的带宽问题。

实验数据表明,相比“类CPU架构”采用的基于总线和指令集的映射方法,在同等条件下,SFA架构的数据访问量可降低10~100倍。28nm工艺条件下,系统能效比达到4T+OPS/W,计算资源利用率超过80%,DDR带宽占用率降低5倍。

宋健指出,在当下的主流集成电路工艺下实现,并符合商用化产品的成本考虑。这一点很重要,一项技术,一个想法,如果在目前的条件下无法实施,那只能是空中楼阁了。探境科技不仅推出了先进的芯片架构,通过验证平台得到了确定的结果,而且还在这个理论基础上,推出了相应的产品,涵盖图像处理方面的产品,包括边缘计算、安防前端协处理、自动驾驶、云端推理等芯片;以及语音方面的产品,包括语音唤醒和语音识别、语音理解、通用降噪等芯片。

以上内容是51CTO记者根据WOT2018全球人工智能技术峰会的《优化硬件》分论坛演讲内容整理,更多关于WOT的内容请关注51cto.com。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:Barry 来源: 51CTO
相关推荐

2018-11-30 17:22:52

人工智能AI机器学习

2018-12-17 19:13:43

WOT人工智能数据处理

2018-12-01 16:11:34

WOT2018人工智能51CTO

2018-11-20 14:48:30

WOT人工智能

2018-12-26 10:08:23

WOT AI峰会

2021-06-30 20:19:22

人工智能AI

2018-11-30 12:04:15

AIWOT51CTO

2018-04-02 09:14:10

人工智能链家WOT2018

2018-12-24 14:58:02

人工智能AI视觉搜索

2019-01-03 14:23:48

人工智能人机智能业务创新

2019-11-11 16:19:39

人工智能

2021-04-23 10:21:26

人工智能人工智能技术AI

2017-12-21 11:32:07

人工智能薪资失业

2019-01-11 14:45:30

2021-09-06 09:09:22

人工智能安全风险AI

2020-01-07 10:28:01

人工智能机器学习技术

2019-08-21 13:52:55

人工智能AI5G

2018-12-29 15:12:58

人工智能NLPWOT2018

2017-03-31 08:45:00

人工智能人类乌托邦

2018-06-13 10:36:49

ARWOT
点赞
收藏

51CTO技术栈公众号