曙光深度学习集群方案助力通信行业AI智能运用

中科曙光

2019-07-10 22:19 7977

近日，曙光通过多年通信行业的深耕经验，以深度学习集群方案保障高效计算，满足通信行业智能语音、市场营销、网络智能化、客户服务智能运用等业务层需求。

北京2019年7月10日 /美通社/ -- 截至目前，通信行业都开启了自己的人工智能业务，人工智能已经成为运营商发力数字化新业务的着力点。而在平台AI核心能力层，将产生大量语音、图像、视频以及其他结构化数据，算力的进步也为深度学习集群方案提供了后盾支持。

为了提高网络运营、服务和管理等全链条的智能化水平、运用信息通信技术更好地支撑和服务人工智能产业以及各行业的智能化转型。近日，曙光通过多年通信行业的深耕经验，以深度学习集群方案保障高效计算，满足通信行业智能语音、市场营销、网络智能化、客户服务智能运用等业务层需求。

曙光深度学习集群方案是如何支撑起通信行业AI智能运用的呢？

深度学习集群方案架构

从整体来看

曙光深度学习集群方案从计算、存储、网络、软件等部分，组成了合理、符合通信行业用户应用特点、没有性能与功能短板的一套集群方案。

从计算层角度

GPU服务器为深度学习提供强劲的算力支持。GPU的众核体系结构包含了大量的流处理器，矢量运算可以并行进行，对于矩阵运算的加速效果非常明显，而深度网络在训练过程中需要进行大量的矩阵运算，这无疑成了深度模型训练方面的首选方案之一，利用GPU训练深度网络可以充分的发挥计算核心的并行计算能力，在海量训练数据的情况下，耗费时间短，使用服务器数量也变得更少。

针对不同深度学习场景，可以搭载多颗GPU的不同类型GPU服务器，在整个计算层中成为了的核心计算单元。同时，在计算层中针对集群管理和桌面服务等非核心计算部分采用通用机架服务器支撑。

从网络层角度

网络层主要包括物理网络传输、集群管理调度、人工智能平台三个部分。

网络传输部分，对于深度学习网络模型训练，除了提供强大计算能力还需要保证PCI-E的传输带宽，对于多机情况，需要能提供更好网络带宽的网络设备来保证整个系统的数据传输效率，减少网络数据传输带来的影响；

集群管理调度需要对计算集群整体状态和计算节点的实时状态进行监控和分析，并形成实时的可视化数据报表；

人工智能平台需要提供对深度学习开发环境的快速部署；并要针对深度学习开发，对运算资源按照训练任务进行分割和分发。

从存储层角度

存储层主要用于存放计算数据，在高性能计算中，数十个或者上百个计算节点需要有一个统一映像的共享存储，使用并行文件系统把所有的存储阵列统一为一个大的存储，而并行文件系统能够满足用户需求。针对深度学习解决方案，曙光ParaStor系列采用分布式集群架构，提供充足的I/O聚合带宽，存储系统稳定可靠、具有线性扩展能力。