北京2022年7月1日 /美通社/ -- 随着数字经济的蓬勃发展和"东数西算"工程全面启动,算力已成为新的生产力。计算场景的多元化、泛在化需要更高效的连接,云计算和一体化大数据中心的新型算力网络体系将逐步构建。网络技术通过硬件重构、开源开放,进入了发展的快车道,高性能网络为广域互联、高效通信、数据共享、协同计算提供了坚实的支撑,有效推动了云计算、边缘计算等网络应用的发展,也助力了高性能和人工智能的蓬勃发展。
6月23日,由高效能服务器和存储技术国家重点实验室和开放计算中国社区联合主办的"网络技术的研究与实践"第六期开放计算技术沙龙在线上成功举行,会议由高效能服务器和存储技术国家重点实验室首席研究员叶毓睿主持,汇集来自清华大学、华中科技大学、阿里云、电子云、浪潮网络、NVIDIA、矩向科技等产学研用领域相关专家教授,围绕高性能网络互联、智能网卡和DPU、开放网络等话题,共同探讨网络技术的现状与趋势。
首先,主持人叶毓睿研究员在开场分享了高效能服务器和存储技术国家重点实验室最近的一些思考和观点。他表示,如果说软件定义的方向是一切皆服务,那么硬件重构的方向则是一切皆计算机(XaaC,anything as a Computer或everything as a Computer)。在IT基础设施领域内,不只是宏观(超大规模,如数据中心级别)、中观(机柜级别、服务器级别),还有微观(组件级和设备级别),都有类似的趋势,例如网卡即计算机:智能网卡SmartNIC/DPU。硬件重构的方向是一切皆计算机,这个趋势不仅适用于IT基础架构,还适用于智能制造领域,如叶片即计算机,GE有个风电部门,把传感器安装在每一个风机叶片上,通过对转速、风力、温度、环境等近百种数据的采集、分析,风机能自己调整涡轮叶片转速;此外还有吊舱即计算机、摄像头即计算机、手套或眼镜即计算机等等。
在主题演讲环节,清华大学教授、博士生导师向东分享了"高性能高阶网络互连架构及通讯协议"。在高阶网络架构中,他介绍到Dragonfly(蜻蜓网络)是一个二级全连接网络,现有的网络设计成本主要取决于机柜间的全局光纤数目,减少光纤数目及交换机端口数目是降低设计成本的核心要素,蜻蜓网络能够将数据包传输路径的全局光纤数目降低为1,其网络设计成本远低于3-D Torus及胖树等其他网络架构,不仅适合于搭建超级计算机,同时也适用于数据中心。Dragonfly可以容忍连线故障、节点故障等动态故障,避免无目的的misrouting路由。相比国际上流行的互连技术,Dragonfly转发路由不需要虚拟通道(传统的方法需要3~4个VCs,也即虚拟通道),可以实现无缝路由,能够做成体系的硬件容错设计。向东教授同时介绍了dragonfly+,slingshot,及CLHR网络,其中dragonfly+网络类似于胖树,并在报告中给出了这些网络类似便捷高效的互连及通讯解决方案。
华中科技大学教授、博士生导师刘方明就"国家重点研发计划驱动的数据中心网络开源实践" 进行主题分享。他带领团队与浪潮信息合作历时四年,完成了科技部"云计算与大数据"专项中的研发计划项目 -- 高效能云计算数据中心关键技术与装备,其中研发了一系列有代表性的数据中心网络开源系统,涉及数据中心内的资源调度,例如网络功能虚拟化中间件PostMan,能够快速缓解突发流量场景的小数据包请求洪峰负载,以及利用CPU-FPGA协同和软硬结合的方法加速网络数据处理的DHL框架,均入选了木兰协议的全国首批自主开源项目;在跨域多数据中心间的资源调度方面,贡献了OpenStack开源社区多数据中心级联方案Tricircle的多个关键技术,包含跨数据中心三层网络拓扑设计、跨数据中心分布式负载均衡服务、跨数据中心资源调度管理等。相关成果通过研发计划项目集成应用于浪潮云海OS。
浪潮网络总经理孙波发表了"云边端协同下的算网融合新趋势"主题演讲,他指出,云边端协同的智慧联接将成为算网融合新趋势。数字化转型的深入推进对网络基础设施提出新要求和新挑战,需要一个弹性扩展、高效连接、智慧运维的全新网络加以支撑。浪潮网络智慧联接架构,在云中心侧以领先的开放网络平台为核心,打造高性能、低成本、弹性可扩展的解决方案,使新业务上线时间缩短20%,提升排障效率30%,实现秒级网络业务调整,满足云业务弹性、敏捷扩展的需求。边缘侧通过新一代边缘网络平台,融合传统有线、无线网络,以及Zigbee、LoRa等终端网络,打造低延迟、实时可靠的边缘网络,实现网络的智能可视化调度,将网络传输力提升27%、算力利用率提升30%,目前已在政府、教育、医疗、制造等诸多行业得到广泛部署和应用。
其中,针对云中心网络解决方案,浪潮网络架构师、研发部系统处经理吴迅亮分享了 "SONiC在开放网络中的应用与实践"。他表示,开放网络可以加速整个网络的应用创新,相比于传统网络交换机,开放网络交换机是软硬件解耦、系统开放、应用可定制、统一的软件系统。关于开放网络交换机是否会替代传统网络交换机,他认为"这是一个过程,二者会长期共存"。SONiC是基于Debian Linux 基础系统和SAI配合,屏蔽芯片差异的开源网络软件集合,可以提供丰富的L2/L3网络特性,利用容器、数据库等将网络应用之间的关联解耦。同时,SONiC又是一个开放的网络生态,从芯片厂商到最终用户,都深度参与了SONiC的开发、测试和部署。SONiC的源码是开放的,许多厂商都在SONiC上进行特色功能的定制。Inspur NOS就是浪潮基于开源SONiC研发的网络操作系统,在易用性、安全性、功能性、稳定性方面都得到了增强。
在数据中心和云市场,对于业务来进行性能隔离是困扰网络界和计算界很久的问题,现在我们已经实现了租户之间的安全隔离,租户业务和业务之间的隔离,但是当很多的租户在同时运行多个应用时,却无法实现应用之间的性能隔离。NVIDIA网络高级总监宋庆春进行了"云原生超级计算架构率先破解性能隔离难题"的主题分享,他表示在基于云原生超级计算架构的计算平台,网络、存储均成为计算单元,实现了在一个数据中心里,数据在哪里,计算就在哪里,如此也就实现了在一个统一的架构下面,无论是像AI训练这样的大规模应用,还是非常小的一些基于VM就可以实现的应用,我们都可以使其性能达到最大化。云原生超级计算架构实现了计算和通信平台的统一,利用网络计算技术解决了传统通信方式带来的网络拥塞及大量CPU资源消耗的问题,还解决了困扰业界数十年的多租户应用的性能隔离难题,多个交换机网络计算单元并行计算,实现多任务高性能可扩展。
关于智能网卡,电子云研发副总裁刘年超分享了"SmartNIC/DPU在云原生环境中应用的实践和思考"。他指出,SmartNIC、DPU、IPU抑或是新推出的CIPU,虽然在命名方式方面缺乏统一的标准,但从以CPU为中心的体系架构向以数据为中心的体系架构转变是大势所趋。新一代 DPU/IPU 设备的共同特点是它们采用易于编程的多核CPU、先进的网络接口以及一组强大的网络、存储和安全加速器,可以进行编程以执行多个软件定义的硬件加速功能。DPU能够解决不同厂家网卡采用不同驱动的痛点,统一网卡和存储驱动,共享存储和网络资源池,并可以真正实现裸金属、虚拟机和容器统一的运维和管理,并从规模效应、运营模式、应用场景、成本分析、性能要求、人才储备六大方面探讨了SmartNIC/DPU在公有云和私有云场景差异性,给SmartNIC/DPU Startup团队根据自身的情况找准切入点提供一些思考的方向。
在最后有关SmartNIC/DPU的圆桌讨论环节,阿里云神龙计算平台负责人蒋林泉、矩向科技创始人黄朝波、电子云研发副总裁刘年超、NVIDIA网络高级总监宋庆春等嘉宾,共同就SmartNIC和DPU的区别与联系、DPU落地所面临的挑战与机遇等议题进行了热烈探讨与交流,并和听众进行了深入的互动问答。
黄朝波指出,从智能网卡到DPU,是一个持续演进的过程。并且演进还在继续,随着Chiplet等技术的成熟,在边缘和企业云等规模更大的、轻量一些的场景,CPU、GPU和DPU会融合成一颗芯片,我们把它称为超异构处理器HPU。
蒋林泉在介绍阿里云最新发布的CIPU时表示,从云业务出发还是从芯片供应商出发,对是否能在云领域规模落地区别较大,云操作系统和规模业务垂直迭代驱动落地,才有可能在云这个领域发挥最大竞争力。阿里云CIPU的创新,历经5年的迭代,事实上成为了云数据中心的中轴,也成为阿里云云计算服务在性能、稳定性和效率上的核心引擎,这也是为何我们以Cloud Infrastructure Processing Unit命名它的关键原因。
刘年超指出,SmartNIC/DPU未来发展方向是存算网融合趋势,在IDC中计算端,网络互联端,存储端都有很好的应用场景。由于公有云可通过规模效应来摊平高昂的人力及硬件成本,从云上层应用到底层系统硬件芯片驱动做到垂直打通的专一场景,以及服务型交付模式,可以成功将DPU在公有云场景商用落地,但这些高门槛的条件在专属云场景难以具备,所以目前DPU 初创公司在公有云计算端虚拟化商用落地场景未必成立,但在数据中心存储端和边缘计算网络互联端也许是很好的切入点。
宋庆春表示,在算力时代,数据中心成为了计算单元,计算、通信和存储作为计算单元性能的保障,在数据移动的过程中完成计算,是实现业务性能最大化的关键。其中网络计算作为计算和存储的桥梁,将发挥更重要的作用。摆脱传统的计算、通信和存储的概念,在新的架构下重新定位三者之间的操作,势在必行。