解析浪潮AI计算产品GX4：性能强大，随需扩展

浪潮集团

2017-10-15 12:00 6644

在9月底举办的GTC China 2017大会上，浪潮展示了基于Tesla® V100的AI计算产品GX4 Box，成为现场的“明星”产品。

北京2017年10月15日电 /美通社/ -- 在9月底举办的GTC China 2017大会上，浪潮展示了基于Tesla® V100的AI计算产品GX4 Box，成为现场的“明星”产品。

浪潮GX4并不是一台传统意义上的服务器产品，而是一台2U高度的AI box，其中没有CPU、内存，由4块GPU计算加速卡，扩展主板其他支撑部件组成。用户也可部署16块NVMe SSD硬盘替代计算加速卡，作为高密度热数据存储使用。

GX4承袭了浪潮SR-AI整机柜的设计理念，实现了CPU和GPU的物理解耦，使得计算加速单元能够以独立模块的形式进行灵活扩展。这种设计的好处显而易见，它能在保证高效的GPU跨节点通信效率的同时，以灵活的扩展形式敏捷支持不同级别的AI模型训练。有效降低IO冗余和系统购买成本，非常适合深度学习模型训练、科学计算、工程计算与研究领域的应用。

随着训练样本量的指数级增长以及训练模型的复杂度不断提升，AI计算正面临的三大困扰。首先，不同应用需要不同硬件，带来采购和运维成本提升；其次，多机集群的延迟更高；第三，资源扩展不灵活、成本高。针对于此，GX4采用了一些创新的设计来解决这些困扰AI用户的难题。

灵活拓扑支持多类型AI应用需求

GPU与CPU计算资源的解耦和重构，让GX4拥有了更加多样的拓扑结构，可以通过灵活调整GPU拓扑，满足AI云、深度学习模型训练和线上推理等各种AI应用场景，使计算架构与上层应用更匹配，发挥出AI计算集群的较大性能。

目前，GX4可支持Balanced、Common、Cascaded三种不同的GPU拓扑结构。其中，云服务的用户需要做虚拟化，每个VM需要分配对应的GPU资源，为了保证VM的分配GPU的性能均衡性，需要采用Balance方式保证VM下GPU资源的性能均衡；Common模式和Cascaded模式均适合于深度学习模型训练使用，区别在于Common上行有两条X16链路，Cascade只有1条，但是Cascade P2P更优化，以上三种模式可以通过线缆来灵活调整拓补。

集群延迟降低50%以上

浪潮AI计算产品GX4能够实现极低的延迟。在传统的GPU集群中，比如单机4卡服务器组成的16卡集群，跨节点间的GPU通信会经过不同协议的转换，CPU、PCIe间的UPI或QPI以及网络的延迟，至少较早造成2us的数据传输延迟。而浪潮GX4能够实现16块GPU之间仅依赖PCI-E进行通信，延迟可降低50%以上，并且借助GPU Direct RDMA技术，使跨节点GPU与GPU实现直接的数据交互，而不再需要经由CPU的跳转，大幅降低跨节点GPU间的通信延迟，最终使GPU计算集群的延迟下降到ns级。

兼具高性价比和高扩展性

GX4组成的AI计算集群，由负责逻辑运算的SA5212M5机架式服务器和包含4块GPU卡的box组成，且单台SA5212M5能够挂接至少4台box。当业务需要更大的AI计算资源时，可以单独采购box来完成高性价比和高灵活性的扩展，较大可实现单物理集群16卡的资源扩展，单精度浮点运算能力较高可达192TFlops，成本可节省$15,000以上。

资源调配灵活

浪潮GX4组成的AI集群中，SA5212M5可以调用一台box中的1-4块GPU，也可以任意挂接1-4台box。当不同的业务部门有不同的配置需求时候，可以通过软件定义的形式灵活改变单物理集群的GPU卡数量，将资源调度最小颗粒度从服务器级升级为GPU卡级别。

支持多种数据中心环境

由于没有传统服务器架构中的CPU和硬盘等热源，浪潮GX4可以运行在不同的数据中心环境，并且冷风直接透过GPU散热，同样性能下功耗更低。此外，GX4 740mm的深度和传统的高密GPU服务器相比，外形更加小巧，为后部操作和维护提供足够的空间，而所有CPU和GPU通过箱子后部的线缆相连，也极大的方便计算空间的操作和运维。

总而言之，浪潮GX4是一款具有很强灵活性和扩展性的高性能GPU AI计算新品，能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求，可谓是随需扩展神通广大的“金箍棒”产品。

消息来源：浪潮集团