在AI芯片领域,有这么一家国内企业,成立不到3年时间,就研发出了颠覆性创新的SFA(Storage First Architecture)存储优先芯片架构,设计出了专门用来做语音识别的高计算强度神经网络(HONN),发布了包括音旋风611在内的多款AI芯片,并与30家企业建立了合作伙伴关系,语音识别方案实现了百万级的产品出货,成长速度超乎所有人的想象。
这家低调而又务实的AI芯片公司,就是成立于2017年的探境科技。
颠覆性创新的SFA存储优先架构
SFA存储优先架构是探境科技面向AI芯片中存储墙问题设计的创新架构。之所以设计这种独具创新的AI芯片架构,在探境科技创始人/CEO鲁勇看来,是因为所有运行深度学习算法的AI芯片都面临着存储带宽大、功耗高、数据重复使用的问题。
鲁勇告诉记者,数据在存储器里的位置、相对关系、读取性能都会影响到算法的运行性能,探境科技用一种比较独特的方法推翻了冯诺依曼体系架构,得到了非常好的结果,这就是SFA存储优先架构。SFA存储优先架构能够带来超高的能效比,数据访问可降低10-100倍,存储子系统功耗下降了10倍以上。利用SFA存储优化架构设计的AI芯片采用了28nm工艺,系统能效超过2T Ops/W。实验数据表明,SFA架构所采用的各种微观和宏观调度算法,比较“类CPU架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。
除了高能耗比之外,SFA存储优先架构还具备出色的易用性和通用性。在通用性方面,SFA存储优先架构支持所有已知神经网络,没有任何参数上的限制,并且支持定点数和位点数,没有限制数据类型。另外,还能够自适应支持常见的稀疏数据,不用人工干预。
在易用性方面,由于SFA存储优先架构采用了成熟设计方案,无需对底层器件进行修改设计,算法合作伙伴只需要进行一些很小的优化,即可以快速应用,大大加速了商业化路径。除此之外,探境科技还提供了供零基础用户使用的工具链,并将其开放给所有算法的合作伙伴,为他们节省了大量的时间和精力。
由于SFA存储优先架构不仅适配于终端,也适配于云端、推理、训练,因此可以组合成各种不同的产品形态。
鲁勇表示,SFA存储优先架构所具备的高能耗比、易用性和通用性,使其成为真正符合商业应用的AI芯片架构,受到了合作伙伴的一致认可和好评。
独色设计的HONN高计算强度神经网络
众所周知,在一个完整的语音识别链路中,降噪算法和语音识别算法是重中之中。为此,探境科技通过自已研发的深度学习降噪算法和高计算强度神经网络HONN,解决了诸如吸油烟机等高分贝噪音的干扰问题,大幅提高了语音的识别率。
据探境科技副总裁李同治介绍,探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。而为了验证探境AI降噪算法的有效性,他曾将一批信噪比在3dB左右的语音数据送到一个知名的云端公开语音识别引擎做了测试,降噪后比降噪前提高30%识别准确率。
在具备了非常强的噪声处理能力之后,探境科技又重新设计了一个高计算强度的神经网络,即HONN(High Operation Neural Network),解决了语音识别的问题。
HONN是将计算机视觉中的一些经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作而来。与大部分公司采用的全连接操作(DNN/DTNN)相比,HONN对计算力要求更高,从探境科技提供的数据可以看到,HONN需要超过几百兆OPS,而一般的DNN模型需要个位数的算力,两者相差超过30倍。而借助FSA芯片所具有的更强算力特点,HONN加入了更多的卷积操作,重新设计了声学建模单元的网络结构。
当然,由于HONN高计算强度神经网络将每一个处理单元变成了立体维度,大大优于平面上的处理,因此高计算强度神经网络的信息量和计算密度也远远超过传统DNN/DTNN的方法,而多了一个维度的识别,性能提升是显而易见的。况且,高计算强度的模型仅需要350k的存储空间,而DNN需要1.6M的存储空间,因此能够大幅降低语音识别芯片的成本。
正是依托于AI降噪技术+HONN神经网络,探境推出的Voitist音旋风611可以覆盖绝大部分的生活场景,无惧各种噪音干扰。
基于FCSP的端到端AI双麦算法
日常生活中,我们面临着多种多样的应用环境,例如低信噪比、远场环境、高噪声、非稳态噪声的影响、多声源等等,如何提高复杂场景下的语音识别精度也成为探境科技的攻克难题。为此,探境研发了设计出了基于FCSP的端到端AI双麦算法。
所谓FCSP,即Frequency Complex Subspace Projection,是探境自研的频域复数子空间投影算法的简称,其直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。
另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。
根据媒体报道,谷歌公司采用了Factored Model in Frequency的算法,相对错误率降低至16%,双麦达到了传统算法7麦的识别率。而探境科技采取了频域复数子空间投影,抗噪性能强,在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。
李同治表示,通过AI语音算法+HONN神经网络模型来提升识别率,再通过FCSP“端到端”的双麦处理算法简化识别流程,降低最终识别错误率,探境的语音算法实现了跨越式的升级。
基于双麦算法,探境对611进行了升级,推出了音旋风612语音识别方案,和传统友商芯片相比,一是降低了对多麦的信号处理,节省了硬件成本;二是高噪声环境下识别率大幅提高;三提供了更高的有效算力。
探境科技是一家拥有全栈式技术的公司,在IT设计、软件开发、算法研究、系统集成方面,都有非常雄厚的研发力量。因此我们可以提供交钥匙式的整体解决方案。
探境的未来规划:图像芯片已经在路上
在今天的媒体沟通会上,探境首次曝光了由低功耗系列、主打系列、旗舰系列组成的三大系列、6颗AI芯片组成的产品矩阵。除了支持AI双麦的Voitist音旋风612之外,还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。据鲁勇透露,未来探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。
除了语音芯片之外,鲁勇还公布了首个图像芯片的规划,其IPS/W更是高达800,是目前已知AI芯片中最高的。据介绍,探境的图像芯片在2019年Q4就已经流片成功,图像的某些领域甚至已经开始产生营收了。
据了解,探境科技全球总共有6个研发中心,分别在北京、上海、深圳、合肥、杭州以及美国的硅谷,员工接近200人,其中150人是研发人员,有50人拥有博士和硕士、研究生学历。
并且,骨干研发人员的平均工作经验超过15年,正处于研发的黄金周期。
“探境不仅有高性价比全栈式的语音解决方案,未来还将推出图像领域的解决方案;不仅有全链条的研发实力,还愿意携手上下游合作伙伴一起,共享AI时代带来的科技红利。” 鲁勇如是说。