英特尔Naveen Rao：企业级人工智能需要更全面的方法

不仅是CPU或者GPU

英特尔

2018-05-24 19:03 6196

在5月23日旧金山举行的英特尔人工智能开发者大会上，我们介绍了有关英特尔人工智能产品组合与英特尔 Nervana™ 神经网络处理器的最新情况。

北京2018年5月24日电 /美通社/ -- 5月23日，在旧金山举行的英特尔人工智能开发者大会上，英特尔公司全球副总裁兼人工智能产品事业部总经理Naveen Rao发表了演讲，以下为全文：

在5月23日旧金山举行的英特尔人工智能开发者大会上，我们介绍了有关英特尔人工智能产品组合与英特尔 Nervana™ 神经网络处理器的最新情况。这是令人兴奋的一周，英特尔人工智能开发者大会汇集了人工智能领域的顶尖人才。我们意识到，英特尔需要与整个行业进行协作，包括开发者、学术界、软件生态系统等等，来释放人工智能的全部潜力。因此，我很兴奋能够与众多业内人士同台。这包括与我们共同参与演示、研究和实践培训的开发者，也包括来自谷歌*、AWS*、微软*、Novartis*、C3 IoT*的诸多支持者。正是这种广泛的合作帮助我们一起赋能人工智能社区，为加快人工智能领域的技术创新和进步提供所需的硬件和软件支持。

本文作者:Naveen Rao 英特尔公司全球副总裁兼人工智能产品事业部总经理

Naveen Rao发表演讲

在加速向人工智能驱动的未来计算过渡之时，我们需要提供全面的企业级解决方案。这意味着我们的解决方案要提供最广泛的计算能力，并且能够支持从毫瓦级到千瓦级的多种架构。企业级的人工智能还意味着支持和扩展行业已经投资开发的工具、开放式框架和基础架构，以便更好地让研究人员在不同的人工智能工作负载中执行任务。例如人工智能开发者越来越倾向于直接针对开源框架进行编程，而不是针对具体的产品软件平台，这样有助于更快速、更高效的开发。我们在大会上发布的消息涉及所有这些领域，并公布了几家新增的合作伙伴，这都将帮助开发者和我们的客户更快速地从人工智能中受益。

针对多样化的人工智能工作负载而扩展的英特尔人工智能产品组合

英特尔近期的一项调查显示，在我们的美国企业客户中，50%以上都正在转向采用基于英特尔^®至强^®处理器的现有的云解决方案来满足其对人工智能的初步需求。这其实肯定了英特尔的做法 -- 通过提供包括英特尔^®至强^®处理器、英特尔^® Nervana™和英特尔^® Movidius™技术以及英特尔^® FPGAs 在内的广泛的企业级产品，来满足人工智能工作负载的独特要求。

我们今天讨论的一个重要内容是对英特尔至强可扩展处理器的优化。与前一代相比，这些优化大幅提升了训练和推理性能，有利于更多公司充分利用现有基础设施，在迈向人工智能初始阶段的过程中降低总体成本。最新的英特尔 Nervana 神经网络处理器（NNP）系列也有更新消息分享：英特尔 Nervana 神经网络处理器有着清晰的设计目标，即实现高计算利用率，以及通过芯片间互联支持真正的模型并行化。行业谈论了很多有关理论峰值性能或 TOP/s 数字的话题；但现实是，除非架构设计上内存子系统能够支撑这些计算单元的充分利用，否则很多计算是毫无意义的。此外，业内发表的很多性能数据采用了很大的方形矩阵，但这在真实的神经网络中通常是不存在的。

英特尔致力于为神经网络开发一个平衡的架构，其中也包括在低延迟状态下实现芯片间高带宽。我们的神经网络处理器系列上进行的初步性能基准测试显示，利用率和互联方面都取得了极具竞争力的测试结果。具体细节包括：

使用A（1536, 2048）和B（2048, 1536）矩阵大小的矩阵-矩阵乘法（GEMM）运算，在单芯片上实现了高于96.4%的计算利用率¹。这意味着在单芯片上实现大约38 TOP/s 的实际（非理论）性能¹。针对 A（6144, 2048）和B（2048, 1536）矩阵大小，支持模型并行训练的多芯片分布式 GEMM 运算实现了近乎线性的扩展和96.2%的扩展效率²，让多个神经网络处理器能够连接到一起，并打破其它架构面临的内存限制。

在延迟低于790纳秒的情况下，我们测量到了达到89.4%理论带宽的单向芯片间传输效率³，并把它用于2.4Tb/s的高带宽、低延迟互联。

这一切是在总功率低于210瓦的单芯片中实现的，而这只是英特尔 Nervana 神经网络处理器原型产品（Lake Crest）。该产品的主要目标是从我们的早期合作伙伴那里收集反馈。

我们正在开发第一个商用神经网络处理器产品英特尔 Nervana NNP-L1000（Spring Crest），计划在2019年发布。与第一代 Lake Crest 产品相比，我们预计英特尔 Nervana NNP-L1000将实现3-4倍的训练性能。英特尔 Nervana NNP-L1000还将支持 bfloat16，这是业内广泛采用的针对神经网络的一种数值型数据格式。未来，英特尔将在人工智能产品线上扩大对 bfloat16的支持，包括英特尔至强处理器和英特尔 FPGA。这是整个全面战略中的一部分，旨在把领先的人工智能训练能力引入到我们的芯片产品组合中。

面向真实世界的人工智能

我们产品的广度让各种规模的机构能够轻松地通过英特尔来开启自己的人工智能之旅。例如，英特尔正在与 Novartis 合作，使用深度神经网络来加速高内涵筛选 -- 这是早期药品研发的关键元素。双方的合作把训练图片分析模型的时间从11个小时缩短到了31分钟 -- 改善了20多倍⁴。为了让客户更快速地开发人工智能和物联网应用，英特尔和C3 IoT宣布针对优化的 AI 硬软件解决方案进行合作 -- 一个基于 Intel AI 技术的C3 IoT AI 应用。此外，我们还正在把 TensorFlow*、MXNet*、Paddle Paddle*、CNTK*和 ONNX*等深度学习框架集成在 nGraph 之上，后者是一个框架中立的深度神经网络（DNN）模型编译器。我们已经宣布，英特尔人工智能实验室开源了面向 Python*的自然语言处理库，帮助研究人员开始自己的自然语言处理算法工作。

计算的未来依赖于我们联合提供企业级解决方案的能力，通过这些解决方案企业可以充分发挥人工智能的潜力。我们迫切地希望可以与社区以及客户一起开发和部署这项变革性技术，并期待在人工智能开发者大会上拥有更精彩的体验。

测试中记录了组件在特定系统的具体测试中的性能。硬件、软件或配置中的差异将会影响实际性能。如果考虑购买，请在评估性能时参考其它信息来源。欲了解关于性能和基准测试结果的完整信息，请访问：http://www.intel.com/benchmarks

来源：英特尔在限定版软件开发工具（SDV）上的测量

¹矩阵-矩阵乘法（GEMM）运算；A（1536, 2048），B（2038, 1536）矩阵大小
² 两个芯片 vs. 单芯片的GEMM运算性能； A（6144, 2048），B（2038, 1536）矩阵大小
³全芯片MRB-CHIP MRB数据转移，使用send/recv，Tensor 大小 = (1, 32)，5万次迭代的平均值
⁴20倍是通过从单节点系统扩展到8插槽集群而实现的21.7倍速度提升。

⁸插槽集群节点配置：CPU：英特尔^®至强^® 6148处理器（2.4GHz）；核心数：40；插槽数：2；超线程：启用；内存/节点：192GB，2666MHz；网卡：英特尔^® Omni-Path Host Fabric Interface （英特尔^® OP HFI）；TensorFlow：v1.7.0；Horovod：0.12.1；OpenMPI：3.0.0；集群：ToR Switch：英特尔^® Omni-Path Switch

单节点配置：CPU：英特尔^®至强^®融核处理器7290F；192GB DDR4 RAM；1x 1.6TB 英特尔^® SSD DC S3610系列SC2BX016T4；1x 480GB 英特尔® SSD DC S3520系列SC2BB480G7；英特尔^® MKL 2017/DAAL/Intel Caffe

英特尔技术的特性和优势取决于系统配置，可能需要特定的硬件、软件或服务激活。实际性能因系统配置而异。没有任何计算机具有绝对安全性。更多信息见 intel.com 或咨询系统制造商或零售商。

英特尔不控制或审计本文中提及的第三方基准测试数据或网站。请访问参考网站并确认参考数据是否精确。

消息来源：英特尔