深圳2022年5月18日 /美通社/ -- 日前,承启生物首次实现了在纯国产电脑上使用自研FANSe算法高性能分析大规模基因测序数据,其速度与当前基于主流Intel和AMD处理器的台式机和服务器相当。这实现了精准医学基因测序领域的纯国产流程实用化,在这一领域中国彻底摆脱了"卡脖子"问题。
大规模测序,又称新一代测序、二代测序,将DNA或RNA打断成许多小片段进行平行测序,一次测序即可得到几百万至几亿个小片段的核酸片段序列信息,在生物学研究、疾病诊断、流行病溯源等领域有着广泛的应用。但产生的海量数据必须经过大量运算才能得到有生物学意义的结论,通常这需要很强算力的计算机或服务器才能在数小时内给出结果。
然而,高性能CPU和GPU高度依赖进口,不但有被国外断供"卡脖子"的危险,而且进口CPU还可能存在后门,有泄密风险。在政府等对安全性要求极高的场合,以往一直没有纯国产计算机能满足大规模测序的分析需求,这是由于国产CPU难以满足需求。
承启一直在生物信息国产化处理领域做努力,经过深入调研发现,兆芯开先CPU架构的整数性能理论上比较优秀,实际应用时需要软件的特定优化才能发挥其全部性能潜力,因此选择了兆芯开先CPU作为FANSe算法适配优化的目标。
承启生物自研的FANSe算法是目前唯一规模化商用的纯国产高性能大规模测序比对算法,2020年其曾创下单机5分钟分析完一个30X人全基因组测序数据集的世界纪录,并一直保持至今。算法完全自研带来了显著的优势,可以任意根据CPU的特性而进行特别优化,而依赖于国外知识产权的传统算法则难以做到。
日前,FANSe算法在纯国产平台上运行成功,CPU是兆芯开先KX-U6780A,固态硬盘来自长江存储,内存芯片来自长鑫。与之对比的是一台双Intel E5V3 (共28核56线程)的服务器,都部署在承启基因测序分析云平台上。在常见的转录组、翻译组、细菌菌群宏基因组等应用中,纯国产计算机的性能仅比服务器慢1%~12%,使用中几乎感觉不到其性能差异。这也是纯国产计算设备在大规模测序数据处理上第一次在实际应用性能上几乎追平国际主流服务器。
此前,承启生物和华大智造联合发布了国产大规模测序的全流程,将测序仪、试剂、分析算法等全面实现国产化,不依赖国外知识产权,有力地捍卫了中国精准医学的自主权。
如今,承启再进一步,凭借专门优化的FANSe算法,将纯国产计算设备的应用性能提高到比肩国际主流的水平,标志着中国的基因测序的安全性和自主可控达到一个全新的高度,不仅能支撑诸多精准医学应用,更能在检验检疫、流行病控制、生物战防治、法医鉴定等直接关系到国家安全的方面大显身手。