北京2020年9月22日 /美通社/ -- 2020年9月4日,浪潮集团“智驱新时代-浪潮云数智中国行”长沙站活动现场,中南大学信息与网络中心代表以“智算中南”为主题,介绍了中南大学高性能计算公共服务平台建设有关情况。中南大学与浪潮携手打造的国内首个高校智算平台即将落成,不仅将有力地支持中南大学的学科建设和人才培养,推动高校高性能计算的发展,更是智慧时代开展科学研究强有力的基础设施,“智算中南”将着力推进以算力为基础、以算法为核心、以模拟和仿真为手段的科学研究数字生态体系建设,赋能各行业的创新研究。
以下为演讲现场实录。
尊敬的各位领导,各位来宾、IT届的朋友们,上午好!今天非常高兴,借浪潮公司巡展的机会,分享中南大学高性能计算平台建设的一点体会。我的汇报题目是“智算中南”,实际上是借“智算中南”建设案例,向大家汇报中南大学信息与网络中心在高性能计算平台建设方面的一些做法,以期抛砖引玉。
“智算中南”建设背景
首先,从国家高等教育的宏观视角来观察,那就是“双一流”建设战略的大背景。2017年9月21日,教育部、财政部、国家发改委联合发布《关于公布世界一流大学和一流学科建设高校及建设学科名单的通知》,正式公布“双一流”建设高校及建设学科名单。“双一流”建设主要围绕五个方面开展,包括一流师资团队的建设、拔尖创新人才的培养、科学研究水平的提升、优秀文化的传承创新以及科研成果的转化推进。“双一流”建设和人们熟知的“211工程”、“985工程”比较,有一点显著的不同,“双一流”建设引入了优胜劣汰的动态竞争机制,这种动态竞争的制度安排,使得各个高校面临新的机遇和挑战。
其次,从学校当前的需求来分析,中南大学是教育部直属全国重点大学、国家“211工程”和“985工程”高校,是世界一流大学A类建设高校。“双一流”建设的内容就包括科学研究、人才培养和创新驱动,在“双一流”建设的大背景下,学校的科学研究水平、科研成果产出以及拔尖创新人才培养需要更上一层楼。我们都知道,科学研究包括理论研究和实验研究两个基本范式,自从计算机出现以后,我们又多了一种从事科学研究的手段,那就是计算,通过高性能计算系统的模拟和仿真,来开展科学研究。
《论语》中孔子说:“工欲善其事,必先利其器”。建设一个硬件先进、功能齐全、资源丰富,面向全校师生提供高性能计算公共服务的开放性基础设施,不仅可以为学校的科学研究和工程计算提供优质的服务,而且还是人才培养的重要基地,更是参与国内外高性能计算领域学术交流、科研合作和创新的重要平台。因此,建设智算平台提供公共计算服务的紧迫性就显得尤为突出,我们的理念是时不我待,只争朝夕。
再者,从学校高性能计算应用层面来剖析,智算平台建设之前存在四个方面的问题:
第一是小规模计算集群,学校各科研团队采购小规模集群,存在使用效率低、资源有限、运维困难、安全隐患大,缺乏高水平专业运维和用户服务技术人员,以及存在分散重复建设等问题;第二是昂贵的社会计算资源,租用校外计算资源存在费用高、数据传输困难,难以满足个性化需求等问题;第三是对计算资源的持续投入不足,学校2009年建设了校级高性能计算公共服务平台,尽管在2013年和2018年分别进行过升级更新,但总体而言,缺乏持续的滚动投入,导致计算能力严重不足,而且,早年建设的高性能计算设施即将面临淘汰;第四是调研表明学校公共计算资源不足,通过统计学校二级学院自建计算集群存量、梳理资产部门计算设备采购清单,以及调研用户对高性能计算资源的需求,发现学校公共计算资源存在明显的短板。
最后,调研国内外高水平大学高性能计算平台建设表明,近年来清华大学、中国科学技术大学、上海交通大学分别投入数千万资金开展高性能计算平台的建设,满足学校科研对算力的需求。从全球HPC TOP 500排行榜来观察,国外高水平大学也不例外。总之,国内外高水平大学在高性能计算领域的投入日趋增大,建设规模早已进入千万亿次级别(P级别),国家层面,E级别超算已提上议事日程。
基于上述背景,针对“智算中南”解决方案,我们提出满足用户需求,考虑前瞻性,重点服务学校“双一流”建设的三个建设原则,精心设计、用心打造“智算中南”高性能计算平台。
智算平台四大优势
2020年上半年,中南大学携手浪潮开始“智算中南”的建设,智算平台共有上千台设备,采用浪潮成熟稳定的高性能计算和人工智能服务器以及浪潮AI微模块数据中心解决方案,合计42个高密度IT机柜,设备布局科学合理、密度高、功耗分布均匀且无热点。单IT机柜设计功率达到19千瓦,机房面积195平米,以前几乎无法想象在195平米的空间内,计算集群可以达到五千多万亿次的超高算力。
中南大学智算平台具有四大优势:
首先是超强算力,智算平台由1058个浪潮高密度HPC计算节点和AI服务器节点组成,采用英特尔高性能CPU和英伟达Tesla系列GPU,合计50896个计算核心,CPU理论计算能力为4856万亿次,GPU理论计算能力为788万亿次,整个计算集群聚合计算能力达到5644万亿次,计算能力位于当前国内高校顶尖水平。
第二是超强作业调度和管理能力,智算平台采用浪潮自主研发的Cluster Engine集群作业调度管理软件和AIStation人工智能资源平台,实现整个平台计算资源的统一调度和管理,科学分配高性能计算和深度学习等计算资源。
第三是超高性能的并行存储系统,智算平台采用国际领先的DDN商业版Lustre并行文件系统和统一集中式存储架构,可用存储容量超过2PB,最大持续读写带宽达到20GB/s。
第四是超大IB高速计算网络,智算平台采用Mellanox公司最新的HDR InfiniBand交换机,构建高带宽、低时延的计算网络,实现千余台设备的100Gb完全无拥塞高速互联。在成千上万的计算机组成超大规模计算集群中,节点或服务器之间的吞吐和速度极为重要,这也是“智算中南”解决方案选择InfiniBand实现集群高速互联的原因。
“智算中南”高性能计算平台将于今年9月底建成,目前正在按计划开展系统加电测试、机房环境系统测试、网络连通性测试、集群管理软件测试、并行编译环境测试、内存带宽测试、IB高速计算网络测试、存储系统测试、动环监控系统测试以及HP Linpack测试等。下一步将结合具体的专业领域应用,与学校不同学科的专家、教授一道,开展专业应用软件测试,预计10月份投入试运行。我们相信,随着平台的投入使用,必将有力地推动学校科学研究水平的提升,进一步促进科研成果的产出和拔尖创新人才的培养,为学校的“双一流”建设做出贡献。
结束语
各位来宾,科学技术是第一生产力,创新是引领发展的源泉,“智算中南”高性能计算平台不仅仅定位于服务中南大学“双一流”建设,同时,我们欢迎各高等院校、科研单位、大型企业的研发机构和中南大学携手,基于中南大学智算平台强大的算力,在学术研究、科研创新、成果转化、人才培养、产品开发方面开展全方位的紧密合作,引领创新潮流,探索未知世界!