北京2021年8月24日 /美通社/ -- 作为国之重器“500米口径球面射电望远镜”(简称:FAST) -- “中国天眼”,向全球发出邀约,各国科学工作者均可以通过在线方式提交观测申请。是什么“底气”,让刚刚正式运行一年多的中国天眼就有如此的大举措?……这与其不断优化、扩容、升级其超大规模数据基础设施有着何种密不可分的关系?
“中国天眼”FAST,作为全球口径最大、灵敏度最高的射电望远镜,以其具备能够观测到130多亿光年,即接近宇宙边缘区域的“捕获”能力,正在试图回答两千多年前屈原面对浩瀚宇宙时所发出“问天” -- “圜则九重,孰营度之?惟兹何功,孰初作之?”。
精耕天文级数据 “中国天眼”赢得世界瞩目
截至2021年年初,“中国天眼”FAST在经历调试、试运行到正式开放运行,其观测服务已累积近6000个机时、发现300多颗脉冲星。基于FAST数据发表的高质量论文达40余篇,其中快速射电暴相关研究成果成功入选《自然》2020年十大科学发现。
正如“中国天眼”FAST之父 -- 南仁东在其与同事所撰写的“FAST的进展 -- 科学、技术与设备”一文中所指出的,“FAST成功运行离不开一套稳定且高效的观测模式规划及数据处理系统。”由此可见,获得高质量、完整性的天文数据对FAST能否有效支撑科研工作起着至关重要的作用。伴随着FAST持续、系统的科学产出,它也正在面临来自数据处理层面的巨大挑战。
在FAST采用L波段的19波束馈源接收机之后,其每秒最高传输基带数据从此前3GB左右,直接飙升到每秒38G,平均每小时接收到的有效科学数据近3.6TB。随着FAST步入常规运行,观测数据量和科学目标的持续增加,FAST多科学目标巡天每天将会产生约500TB的零级未压缩数据。
面对规模大、来源广、多样化、多时相、多尺度、高维度、高复杂性和非结构化等特点的天文大数据,FAST急需构建起一个具备高带宽数据实时上传、读取,存储以及满足HPC、AI等不同算力需求的超大规模数据处理平台。
打破数据处理“限高” FAST实现持续“提速”
继浪潮存储首次为“中国天眼”FAST提供高性能和高密度两种分布式存储节点后,2021年,浪潮存储再次为其提供分布式存储高密度节点。针对“中国天眼”FAST不同阶段对巨量天文数据处理的需求,天眼工程师与浪潮存储一起通过对业务场景需求的深入洞察和研究,共同探索分布式存储技术在教科研应用场景的方案优化和定制开发,保证了“中国天眼”FAST观测和研究任务的持续推进。
在“中国天眼”FAST科研数据中心升级过程中,浪潮存储独创性地在一套分布式存储平台AS13000G5中部署了面向高性能计算和AI应用的H节点和面向高密度场景的M60两种节点。H节点有效提升了天文大数据处理和分析的效率。与此形成呼应,M60节点凭借接近1PB的单节点容量,为FAST提供了海量存储空间。
整套分布式存储平台实现了冷热数据分层存储,全面提升天文大数据存储、处理和实时分析能力。借助分布式存储平台所展开的AI深度学习,实现了对FAST主动反射面进行优化,使预测效率提升至秒级。
浪潮存储于2021年再次为“中国天眼”FAST提供分布式存储高密度节点。针对FAST科研数据中心逐步加大对科学用户开放使用,观测原始数据和数据分析处理所需的存储空间日益紧张的迫切需求,浪潮存储在本次合作中,采用业界首个“多合一”极简架构,以便确保“中国天眼”FAST持续、高质量的科学产出。
浪潮存储“多合一”极简架构实现了在4U空间内最高可承载1PB数据,提供上百GB/s的带宽资源,具备灵活的在线扩展容量,其最高可扩展至5120节点、数据规模可突破EB级,最终可满足“中国天眼”未来几年乃至十几年的天文大数据存储和处理需求。
今天,屈原的“圜则九重,孰营度之?惟兹何功,孰初作之?”依然萦绕耳畔,“中国天眼”FAST向全球天文科学家发出邀约,为国际同行提供平台“观测时间”,共同仰望天空,探寻星辰大海。