AI芯片之战：TPU/GPU/FPGA谁称霸？

　　智能年代就要到来，芯片商场格式一变再变。两个典型比方：引领处理器商场 40 多年的英特尔 2015 年末收买完 Altera，本年 4 月就宣告方案裁人 1.2 万;另一方面，GPU 巨子英伟达本年 3 月推出加快人工智能和深度学习的芯片 Tesla P100，投入研制经费超越 20 亿美元，据《华尔街日报》报导，本年 5 月英伟达售出的 GPU 比上一年同月增加 62%，公司当时市值 240 亿美元。

　　深度学习运用许多呈现使超级核算机的架构逐步向深度学习运用优化，从传统 CPU 为主 GPU 为辅的英特尔处理器变为 GPU 为主 CPU 为辅的结构。不过，未来适当长一段时刻内，核算系统仍将坚持 CPU + 协处理器的混合架构。可是，在协处理商场，跟着人工智能尤其是机器学习运用许多呈现，芯片厂商纷繁完善产品、推出新品，都想成为智能年代协处理器的领跑者——但问题是，谁会担任这个人物呢?

　　TPU：始于谷歌，总算谷歌

　　要说新的芯片，首要不得不提谷歌在刚刚完毕的 I/O 大会上发表的 TPU。

　　有舆论称，谷歌自己打造芯片，必然对芯片制造商发生巨大影响。的确，面向机器学习专用的处理器是芯片职业的开展趋势，而且未来其他大公司也很有或许组成芯片团队，规划自己专用的芯片。

　　谷歌TPU芯片

　　TPU 团队首要负责人、核算机系统结构范畴大牛 Norm Jouppi 介绍，TPU 专为谷歌 TensorFlow 等机器学习运用打造，能够下降运算精度，在相一起刻内处理更杂乱、更强壮的机器学习模型并将其更快投入运用。 Jouppi 表明，谷歌早在 2013 年就开端隐秘研制 TPU，而且在一年前将其运用于谷歌的数据中心。TPU 从测验到量产只用了 22 天，其功用把人工智能技能往前推进了差不多 7 年，适当于摩尔定律 3 代的时刻。

　　有媒体评论称 TPU 不仅为谷歌带来了巨大的人工智能优势，也对市面上已有的芯片产品构成了要挟。

　　这后半句话值得商讨。GPU 巨子、英伟达 CEO 黄仁勋日前告知《华尔街日报》，两年前谷歌就意识到 GPU 更合适练习，而不善于做练习后的剖析决议计划。由此可知，谷歌打造 TPU 的动机仅仅想要一款更合适做剖析决议计划的芯片。这一点在谷歌的官方声明里也得到了印证：TPU 只在特定机器学习运用中作辅佐运用，公司将持续运用其他厂商制造的 CPU 和 GPU。

　　谷歌云服务副总裁 Diane Greene 也表明，谷歌并没有对外出售 TPU 的计划——抛开 TPU 原本便是为了谷歌自己规划的这个现实以外，谷歌对外出售芯片的或许性很低，就像 Facebook 建议全球供给免费互联网，也并不是自己要做运营商。

　　因而，TPU 再好，也仅适用于谷歌，而且仍是用于辅佐 CPU 和 GPU。

　　TrueNorth 坐观成败?

　　第二个要说的是 IBM TrueNorth。IBM 在 2014 年研制出脉冲神经网络芯片 TrueNorth，走的是“类脑核算”的道路。类脑核算的假设是，相似的结构或许会完成相似的功用，所以类脑核算研讨者运用神经形状器材制造与人脑神经网络相似的电子神经网络，期望后者具有与人脑相似的功用，并进一步反过来了解人类智能。

　　带有IBM TrueNorth的DRAPA SyNAPSE

　　TrueNorth 一张邮票巨细，有 54 亿个晶体管，构成的神经元阵列包括 100 万个数字神经元，这些神经元之间又通过 2.56 亿个电突触互相通讯。因为选用了异步架构，TrueNorth 的能耗很低，54 亿个晶体管仅用 70 毫瓦;而且，只要在特定神经元被敞开并和其他神经元通讯时才会发生能耗。TrueNorth 规划师 Filipp Akopyan 表明，TrueNorth 的方针是 Edge-of-the-Net 和大数据解决方案，所以有必要要能够用超低功耗实时处理许多数据。

　　在此根底上，2016年 4 月 IBM 推出了用于深度学习的类脑超级核算渠道 IBM TrueNorth，含 16 个 TrueNorth 芯片，处理才能适当于 1600 万个神经元和 40 亿个神经键，耗费的能量只需 2.5 瓦。

　　将低能耗芯片用于深度学习无疑是一大重举，美国 LLNL 数据科学副主任 Jim Brase 表明，类脑核算与未来高功用核算和模仿开展趋势一起。可是，新智元芯片群的几位专家评论后一起以为，TrueNorth 尽管与人脑某些结构和机理较为挨近，但智能算法的精度或作用有待进一步进步，离大规模商业运用还有一段距离。

　　因而，未来 10 年芯片商场群雄逐鹿，TrueNorth 大约不会有露脸的时机。

　　寒武纪：我国的智能芯片

　　寒武纪是世界首个深度学习专用处理器芯片。2012 年，中科院核算所和法国 Inria 等组织一起提出了世界上首个人工神经网络硬件的基准测验集 benchNN。这项作业提高了人工神经网络处理速度，有用加快了通用核算，大大推进了世界系统结构学术圈对神经网络的接纳度。尔后，中科院核算所和法国 Inria 的研讨人员一起推出了一系列不同结构的 DianNao 神经网络硬件加快器结构。

　　寒武纪芯片板卡

　　2016 年 3 月，中科院核算所陈云霁、陈天石课题组、寒武纪公司提出的寒武纪深度学习处理器指令集 Cambricon 被核算机系统结构范畴尖端世界会议 ISCA 2016 接纳，在一切近 300 篇投稿中排名榜首，在深度学习处理器指令集方面取得了开创性开展。指令集是核算机软硬件生态系统的中心，英特尔和 ARM 正是通过其指令集操控了 PC 和嵌入式生态系统。

　　2016 年 4 月，寒武纪进入工业化运营，陈天石也从中科院核算所的副研讨员变成了北京中科寒武纪科技有限公司的 CEO。陈天石表明，寒武纪工业化运营的首要方向将是高功用服务器芯片、高能效终端芯片和服务机器人芯片。

　　寒武纪芯片估计 2018 年左右上市，其体现怎么，值得等待。

　　后起之秀概率芯片

　　2016 年 4月16 日，MIT Techonolgy Review 报导，DARPA 出资了一款叫做“S1”的概率芯片。模仿测验中，运用 S1 追寻视频里的移动物体，每帧处理速度比传统处理器快了近 100 倍，而能耗还不到传统处理器的 2%。MIT 媒体实验室教授、Twitter 首席媒体科学家 Deb Roy 评论称，近似核算的潮流正在鼓起。

　　美国 Singular Computing 公司开发的“S1”概率芯片(来历：MIT Techonolgy Review)

　　纽约州立大学石溪分校终身教授顾险峰从最根底的数学层面剖析了概率芯片的长处，专用概率芯片能够发挥概率算法简略并行的特色，极大进步系统功用。概率芯片所运用的随机行走概率办法有许多长处：算法逻辑反常简略，不需求杂乱的数据结构，不需求数值代数核算;核算精度能够通过模仿不同数目的随机行走自若操控;不同的随机行走彼此独立，能够大规模并行模仿;模仿过程中，不需求大局信息，只需求网络的部分信息。

　　顾险峰最终总结，跟着英特尔重组，传统 CPU 系统组织独霸江山的年代将一去不复返，概率芯片和其他更多选用全新架构的专用处理器平起平坐的年代即将来临。

　　早在 2008 年 MIT Techonolgy Review “十大科技打破”猜测中，概率芯片就榜上有名。通过献身细小的核算精度交换能耗显着下降，概率芯片在向来寻求精准的芯片范畴别出心裁，但正因如此，再考虑到 DARPA 现已出资 S1，概率芯片很或许后发先至。

　　实力股 FPGA

　　2012年，百度决议自主规划深度学习专有的系统结构和芯片，通过深入研讨和证明，为了让项目快速落地及迭代，工程师最终决议运用 FPGA 完成百度榜首版自主规划的深度学习专有芯片。

　　作为 GPU 在算法加快上强有力的竞争者，FPGA 硬件装备最灵敏，单位能耗也一般比 GPU 低。更重要的是，FPGA 比较 GPU 价格便宜(尽管性价比纷歧定是最好的)。运用 FPGA 需求详细硬件的常识，对许多开发者有必定难度，因而 FPGA 也常被视为一种行家专属的架构。不过，现在也呈现了用软件渠道编程 FPGA，弱化了软硬件言语间的妨碍，让更多开发者运用 FPGA 成为或许。

　　加州大学核算机博士刘少山以为，FPGA 具有低能耗、高功用以及可编程等特性，十分合适感知核算。在动力受限的情况下，FPGA 相对于 CPU 与 GPU 有显着的功用与能耗优势。FPGA 低能耗的特色很合适用于传感器的数据预处理作业。此外，感知算法不断开展意味着感知处理器需求不断更新，FPGA 具有硬件可晋级、可迭代的优势。刘少山估计，FPGA 与传感器的紧密结合将会很快遍及，然后跟着视觉、语音、深度学习的算法在 FPGA 上的不断优化，FPGA 将逐步替代 GPU 与 CPU 成为机器人上的首要芯片。

　　现在还没有任何深度学习东西清晰支撑 FPGA，但明显它是一支实力股。

　　GPU：未来商场霸主?

　　凭仗强壮的并行核算才能，在机器学习快速开展的推进下，GPU 现在在深度学习芯片商场十分受欢迎，大有成为干流的趋势。互联网巨子，比方谷歌、Facebook、微软、Twitter 和百度等公司都在运用 GPU 剖析图片、视频和音频文件，改善查找和图画标签等运用功用。GPU 也被运用于 VR/AR 相关的工业。此外，许多轿车出产商也在运用 GPU 作为传感器芯片开展无人车。能够说，GPU 是眼下智能产品商场用户覆盖率最广泛的芯片。

　　研讨公司 Tractica LLC 估计，到 2024 年深度学习项目在 GPU 上的花费将从 2015 年的 4360 万增加到 41 亿美元，在相关软件上的花费将从 1.09 亿增加到 104 亿。

　　可是，也有人以为通用芯片 GPU 比较深度学习专用芯片并不具有优势。

　　这有必定道理。但是，规划新的芯片需求许多年，研制本钱或许高达几千万乃至几十亿美元。而且，专用芯片比通用芯片更难编程。最重要的是，专用芯片——依据界说——只提高特定使命的功用体现，这也是为什么谷歌要制造 TPU 辅佐 GPU 和 CPU。

　　英伟达工程架构副总裁 Marc Hamilton 表明，谷歌的 TPU 是一个十分有意思的技能，但其发布进一步印证了他们的观念，那便是人工智能处理器将持续从通用的 CPU 转向 GPU 和 TPU 等其他芯片。此外，GPU 技能也在不断开展，从算法层面加快智能感知核算速度。

　　Hamilton 还提到了百度人工智能科学家 Bryan Catanzaro 的话：深度学习并不是一个那么窄的范畴，从核算视点看，深度学习是多样化的而且演化敏捷;要是制造一款适用于一切深度学习运用的专用芯片，本质上也就成了 GPU 或 DSP。

　　当然，GPU 也有缺点，比方不如 FPGA 灵敏。一起，GPU 也不乏竞争者：除了相同具有并行核算才能的 AMD，Nervana、Movidius 等公司都在制造与 GPU 相似的芯片，但侧重于把数据更快搬运和分摊给图画所需求的功用。

　　小结

　　除了选用其他架构，研讨人员很早就开端探究运用新材料制造芯片。2015 年，三星、Gobal Foundries、IBM 和纽约州立大学等组织组成的研讨联盟推出了一个 7 纳米的微芯片，其晶体管大约一半都由硅锗(SiGe)合金制成。石墨烯也是芯片研制一个要点。机器学习加快新材料发现，也意味着运用新材料制造的芯片呈现几率大大进步。

　　总归，谷歌自己打造 TPU 预示着未来更多非半导体公司或许也将开端出产硬件;硬件制造商有必要不断改善自己的产品，与 CPU 进行更好的合作，而且靠近用户越来越多样化的需求。

扫一扫打开手机网站

微信扫一扫关注我们

AI芯片之战：TPU/GPU/FPGA谁称霸？

联系我们

微信扫一扫关注我们

为您推荐

车载以太网传输性能测试原理分析

数明半导体推出一款集成了米勒钳位功能的双通道隔离驱动芯片SiLM8260

电路PCB的地平面设计对EMI的影响

SMT表面贴装对PCB板有哪些要求

小漫电子经销muRata(村田)DLW5BSM601TQ2L

请问如何FPGA上使用SVM进行图像处理呢？

联系我们

微信扫一扫关注我们