炼数成金 门户 商业智能 芯片 查看内容

华为麒麟970启示录:AI芯片的三大路径和两种场景

2017-9-11 11:15| 发布者: 炼数成金_小数| 查看: 15674| 评论: 0|原作者: 十四|来自: 智东西

摘要: 深度学习是人工智能重要的技术突破,可以说是第三次人工智能浪潮的直接原因。深度学习所需的海量训练数据又对处理器的运算能力提出极高要求,传统CPU执行AI计算成本高,效率低,AI芯片就成为了兵家高地。深度学习作 ...

网络 深度学习 人工智能 GPU 芯片

柏林 IFA2017(国际电子消费品展览会)新品发布会上,华为发布了“世界首款手机AI芯片”麒麟970,内置神经元网络单元(NPU),定位人工智能移动计算平台。

深度学习是人工智能重要的技术突破,可以说是第三次人工智能浪潮的直接原因。深度学习所需的海量训练数据又对处理器的运算能力提出极高要求,传统CPU执行AI计算成本高,效率低,AI芯片就成为了兵家高地。

以下为智能内参整理呈现的干货:

深度学习是人工智能的实现方式之一

深度学习开发环境的层次结构

深度学习作为机器学习的分支,是当前人工智能研究和运用的主流方式。深度学习采用的深层神经网络模型参数和数据量众多,执行训练和推断的计算任务时,都需要进行海量大规模计算,其中训练任务需要的计算量更大。

CPU架构不利于快速处理数据

然而,CPU的架构不利于快速处理数据,需要花费大量时间和能耗、占用大量硬件资源,且当前功耗限制下,无法通过提升CPU主频来加快指令执行速度。人工智能芯片的应运而生。

当前实现完整人工智能计算的方式为CPU+AI芯片的异构计算,AI芯片也被称为AI加速器或计算卡。异构计算指的是采用不同架构的处理器协同计算。人工智能芯片(CPU、ASIC、FPGA 等)主要用来处理人工智能应用中的大量计算任务(其大规模并行计算能力优于 CPU),其他非计算任务仍由CPU负责,因此AI芯片也被称为AI 加速器或计算卡。

AI芯片的三条技术路径

AI芯片一览

当前人工智能芯片主要分为 GPU 、ASIC 、FPGA 。代表分别为 NVIDIA Tesla系列 GPU、Google 的 TPU、Xilinx 的 FPGA。此外,Intel 还推出了融核芯片 Xeon Phi,适用于包括深度学习在内的高性能计算,但目前根据公开消息来看在深度学习方面业内较少使用。


CPU+AI芯片的异构计算是AI计算的主要架构

GPU:抬头早 用例广

代表厂商:英伟达、AMD


GPU在高性能运算方面的性能远超CPU

2011年,吴恩达率先将GPU用于谷歌大脑,发现12颗GPU可提供约2000颗CPU的深度学习性能,之后纽约大学、多伦多大学及瑞士人工智能实验室纷纷在GPU上加速其深度神经网络。

GPU是绘图运算工作的微处理器,最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,所以GPU只需要进行高速运算而不需要逻辑判断,其海量数据并行运算的能力与深度学习需求不谋而合。
中外IT巨头采用英伟达GPU进行AI计算

目前全球GPU行业的市场份额有超过70%被英伟达公司占据(其次是AMD,并于2016年发布Vega GPU芯片),应用在AI领域的可进行通用计算的GPU市场基本被英伟达公司垄断。2016年,英伟达的股价上涨了228%,过去的5年内累计上涨500%。


数据中心业务为英伟达贡献的营收快速上升

全球数据中心广泛采用英伟达的GPU进行海量计算任务

英伟达通过GPU 迅速切入人工智能,又通过打造CUDA平台大大提升其编程效率、开放性和丰富性,建立了包含CNN、DNN、深度感知网络、RNN、LSTM 以及强化学习网络等算法的平台。


英伟达产品向云端和终端全覆盖

FPGA:可编程 更灵活

代表厂商:Xilinx、Altera(英特尔)

FPGA用例

FPGA 是一种半定制电路,具备硬件可编程的特性,和GPU内都有大量的计算单元,因此它们的计算能力都很强。FPGA的峰值性能逊色于GPU,但是GPU由于架构固定,硬件原生支持的指令也就固定了,而FPGA则是可编程的,且功耗也要小得多。

全球有60多家公司先后斥资数十亿美元研发FPGA,包括英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星等,但最终成功的只有硅谷的两家公司:Xilinx与Altera(2015年,英特尔用167亿美元拍下)。这两家公司共占有近90%的市场份额,专利达到6000余项之多。2016年底Xilinx推出支持深度学习的reVision堆栈后,已有超过40家合作客户使用其芯片进行机器学习设计。

随着科技的进展,制造业走向更高度的自动化与智能化,对工业控制技术等领域不断产生新的需求,在未来的工业制造领域,FPGA将有更大的发展空间。

ASIC:定制化 高性能

代表厂商:谷歌、寒武纪……

通用芯片和专用AI芯片对比(援引广发证券)

除了目前主流的两种改善通用芯片用于半定制的深度学习算法之外,业内也在积极研发面向人工智能应用的新的芯片,即专用集成电路ASIC(Application Specific Integrated Circuit)。

顾名思义,ASIC 就是根据特定的需求而专门设计并制造出的芯片,能够优化芯片架构,针对性的提出神经网络计算处理的指令集,因而在处理特定任务时,其性能、功耗等方面的表现优于 CPU、GPU 和 FPGA;但ASIC算法框架尚未统一,因此并未成为目前主流的解决方案。


寒武纪1号神经网络处理器架构


谷歌ASIC产品探索

现有的ASIC包括谷歌的TPU、我国中科院计算所的寒武纪(据报道,此次华为发布的麒麟970所搭载的NPU单元即寒武纪IP产品CAMBRICON-1A,瞄准离线智能化处理)、应用于大疆无人机和海康威视智能摄像头的Movidius Myriad 芯片、曾用于Tesla汽车自动驾驶和ADAS的Mobileye芯片等针对特定算法以及特定框架的全定制AI芯片。

此外,更近一步的的AI芯片前景,大概是IBM 的TrueNorth这类的类脑芯片(BPU)。类脑芯片的目的是开发出新的类脑计算机体系结构,会采用忆阻器和 ReRAM 等新器件来提高存储密度,目前技术远未成熟。


不同芯片在人工智能计算方面各有所强

两大计算场景
AI 芯片的计算场景可分为云端AI 和终端 AI。NVIDIA首席科学家William Dally将深度学习的计算场景分为三类,分别是数据中心的训练、数据中心的推断和嵌入式设备的推断。前两者可以总结为云端的应用,后者可以概括为终端的应用。

神经网络的训练所需的计算量大于推断所需的计算量,通常在云端的推断数据量高于嵌入式设备,因此对性能和功耗的要求也不同。终端/嵌入式AI在计算能效和时效性上更强,目前的主要问题在于功耗,预计自动驾驶、智能机器人、智能手机及智能家居将率先导入应用。


两大AI计算场景对比

云端AI:GPU是主流

云端AI计算过程

人工智能模型训练方面,GPU 因其通用性、强大的浮点数处理能力优于其他芯片,是云端AI的主流。人工智能模型推断方面对浮点数的处理要求较低,FPGA 和 和 ASIC 等已经可以较好地满足需求 ,因此在云端同样存在机会 。Google 和 Xilinx 的研究均可证明采用 INT8(8 位整数)运算器,可以在保证准确度的前提下加快模型推断的速度、降低芯片功耗。

终端AI:FPGA和ASIC更佳


视觉终端应用人工智能的场景
布局终端的低功耗人工智能芯片

终端设备的模型推断方面,由于低功耗、便携等要求,FPGA和ASIC的机会优于GPU 。人工智能芯片将更多地应用于视觉类、语言类终端设备。其中,图像视频处理方面,由于设备需要面对大量图像和视频,计算量高于语音和文字处理。主要的应用场景包括 安防、消费电子、汽车、工业和医疗诊断等。

华为麒麟970启示录
了解了三种海量数据运算的实现路径和两大计算场景,我们再回过头来看看华为的嵌入式AI芯片麒麟970——低功耗终端AI芯片设计思路:

手机处理器SoC构成

华为海思麒麟970架构

采用 10nm 制程,搭载 Cortex-A73(CPU)、Mali-G72(GPU)和麒麟 NPU(神经网络处理单元)。其中,麒麟NPU就是手机处理器平台新加入的一个擅长神经网络计算的单元,大概就是采用了寒武纪的IP了,目的是解决端侧AI(On-Device AI)。

寒武纪IP产品CAMBRICON-1A

据报道:寒武纪的发展方向包括智能终端和云端:其中智能终端机方面,以IP技术授权为主,采用其 IP 华为的麒麟 970 即将跟随 MATE 10面世。云端推出专用加速卡,将与中科曙光开展合作。2016 年,寒武纪的“寒武纪 1A”深度学习专用处理器发布,可用于手机、安防设备、可穿戴设备等终端。2016 年,寒武纪已获得了1亿元的订单。

麒麟970性能示意

NPU运算能力达到1.92先TF进P16ops,新的异构计算架构在处理同样的AI人物是能提高25倍的CPU性能和50倍的能耗表现。此外,麒麟970提供双ISP图像处理单元和Image DSP 信号处理单元,得益于更加强大的算法优化和AI神经网络辅助,吞吐量增加25%,支持AI场景识别、人脸追焦、智能运动场景检测,并提升了夜拍效果。智东西还获悉到,麒麟970在物体识别方面的一整套嵌入式AI解决方案(从算法+Camera Tuning)都来自中科创达。

麒麟970的端侧AI四大挑战
端侧/嵌入式AI将面临并解决智能感知、精准认知、安全系统、动力系统四大挑战。华为消费者业务CEO余承东在本次大会指出:实时计算机视觉、低能耗AR和较精确语言理解方面,是端侧AI创新的三个重要方向。

智东西认为,在目前的人工智能技术发展阶段,基于感知智能的算法发展大势,因此,这个时间点推针对性的AI芯片也算是顺势而为,这不是传苹果也要推AI专用芯片Apple Neural Engine嘛。作为试水产品,手机端AI应用基本是个荒地,麒麟NPU更大的任务可能是不要拖功耗的后腿,在此基础上,实现模式识别(图像、语音)、自然语言处理和SLAM技术等,趁势抢占高地,开源算法,组建移动AI开发者社区,布局相关生态,自然是锦上添花。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2017-12-18 09:11 , Processed in 0.154726 second(s), 25 queries .