北京2022年4月18日 /美通社/ -- 4月9日-13日,第十三届国际性能工程学大会(ICPE2022)在线召开,大会由国际计算机协会ACM和标准性能评估组织SPEC联合举办,高效能服务器和存储技术国家重点实验室承办。此次大会吸引了300余位专家、学者报名参与,共收到各类投稿290余篇,涉及AI建模及算法、算力提升、能效测量、新型计算架构、体系结构研究等多个主题。其中专业论文70余篇,包含优秀论文58篇,论文集收录22篇。会议期间还举办了6场专题研讨会,涵盖基准测试、存储管理、软件开发等多个领域。
首次引入数据挑战专题,评估数据算法优化对服务器性能的提升情况
相对于传统应用来讲,在云、边、AI等新兴领域,数据中心的首要性能挑战主要来自不断增长的数据规模,系统内的数据流动制约了大规模、超大规模系统计算的效能,提高了系统部署及维护的复杂度和成本。根据国际权威机构Statista的统计和预测,2020年全球数据产生量预计达到47ZB,而到2035年这一数字将达到2142ZB。数据挑战带来的直观问题是超大规模系统的协同,即如何解决数据流动、系统模块之间的通信问题。为此,ICPE2022首次引入数据挑战专题,针对数据集形成算法并进行优化,同时优化服务器的性能。
来自沃尔茨堡大学的André Bauer教授介绍了一种性能改变点的自动分类方法,通过应用时间序列分析和机器学习方法,开发一个可以对潜在的性能变化点进行分类的模型,以评估不同机器学习模型的性能,并将生成的模型应用于其他未标记的数据集,以自动对性能变化点进行分类和检测,从而节省人力及设备资源,提升部署速度。
专家分享研究实践成果,从边缘到集群的性能优化
在大会Keynote演讲环节,来自维也纳理工大学、谷歌及浪潮信息的三位演讲嘉宾,分别从边缘故障预测、数据中心管理、多层数据访问优化的角度介绍了应对数据挑战所采取的方案。
维也纳理工大学教授Ivona Brandic(IEEE 云计算杂志、IEEE TPDS 和 IEEE TCC 编委),在题为《面向可持续和容错边缘系统的数据科学驱动方法》演讲中,揭示了边缘系统与物联网相结合的挑战:由于时效性、高度异构性和资源稀缺,云计算或通用分布式系统设计的故障恢复机制无法应用于边缘系统。因此,Ivona Brandic和她的团队设计了一种基于机器学习的新机制,可以评估在边缘基础设施上冗余部署的服务故障恢复能力。该方法利用动态贝叶斯网络(dbn)的概念,学习边缘服务器故障之间的时空相关性,并将其与拓扑信息相结合,以合并链路故障。最后,可推断出在服务运行时,某一组服务器发生故障或并发断开连接的概率。
SOSP、FAST、EuroSys和HotCloud的程序委员会主席,John Wilkes,长期从事谷歌计算基础设施集群管理工作,发表主题为《构建仓库规模的计算机》的演讲,他介绍谷歌内部面对几个月内增加100000 个 CPU 内核 + RAM + 闪存 + 加速器 + 磁盘的需求,可以动态地将资源分配给最迫切需要它们的产品组,准确地反映所有机器和基础设施的成本(运营支出/资本支出),并监控、控制数据中心的电源和冷却系统以实现最小的开销。
浪潮信息人工智能与高性能应用软件部高性能应用架构师,李龙翔博士发表主题为《多层数据访问优化》的演讲。随着近年CPU核心数增加及性能的不断增强,在超大规模系统并行计算时,越来越多的应用运行性能主要受数据访问速度限制。针对超大规模集群的数据存储特点,他介绍了一种多层数据访问 (Multi-Layered Data Access,MLDA) 优化方法,可以快速对超大规模并行计算性能瓶颈进行分析,通过对存储、网络、访存、CPU等设备数据访问过程优化,提升超大规模集群并行计算效率。这只是浪潮信息解决超大规模系统挑战多种技术之一,在中文巨量模型"源1.0"的训练过程中,浪潮信息采用了多种面向超大规模并行计算技术的软硬件协同优化手段,通过流水线并行、张量并行等手段自动地将模型多层数据切分到不同的节点中实现并行。"源1.0"模型包含的参数总量达 2457 亿,是 GPT-3 的 1.404 倍。
除主题演讲之外,分论坛内容同样精彩
学术论文获奖者,来自犹他大学的Richard Li表示,对于基于分布式微服务的应用程序来说,性能故障排除是出了名的困难。分析人员对性能异常的典型根源诊断首先是缩小慢速服务的范围,调查慢速组件中的高级性能指标或可用日志,最后深入到实际原因。由于缺乏领域知识和实际操作经验,这个过程可能会很长、很乏味,有时还会漫无目的。在本次大会中,他介绍了一种新的由机器学习驱动的性能分析系统,该系统可自动化与延迟相关的性能异常的故障排除过程,以方便诊断和解释根本原因。
来自于IBM的Lixiang Luo为本次大会的产业论文获奖者,他提出的三种NVMe存储虚拟化方法(PCI设备直通法、虚拟块设备法和SPDK虚拟主机目标法)通过虚拟机提供NVMe存储,同一主机上的多个虚拟机可以共用一个物理NVMe设备,以满足现代工作负载不断增长的I/O吞吐量和延迟需求。