深圳2019年8月21日 /美通社/ -- 2019年7月24日,承启生物支持的中国科学家团队在生物科学界权威期刊Nucleic Acids Research上发表论文,通过自主研发的翻译组测序技术,发现了对癌症等重大病变有重要影响的“隐藏的蛋白质组”(Hidden Proteome) -- 这些蛋白质长期以来被人们认为不会存在,所以被称为“隐藏的蛋白质组”。
蛋白质是氨基酸形成的多肽长链。通常认为,至少50个氨基酸以上的为“蛋白质”,而50个氨基酸以下的为“小肽”。小肽因长度短,难以形成复杂的空间构象,只能起一些调控作用;而蛋白质较大,能生成较为精密和复杂的空间构象,便可独立行使细胞结构、催化酶等较为复杂的功能,也能与其他蛋白质相结合,形成精密的蛋白质复合体甚至大分子机器,是生物学功能的主要执行者。
在人类基因组已知的约5万个基因中,其中约2万个被认为是“编码基因”(coding genes) ,即其可以被翻译成蛋白质;余下3万个左右的基因被认为是“非编码基因”(non-coding genes) ,这些基因被认为不可能翻译为蛋白质。
已有的报道中,除了部分非编码基因可表达为小肽行使调控功能外,有发现个别非编码基因(如CLUU1、ESRG等)实际上能翻译成>50氨基酸的蛋白质。若这种情况不是个案而是普遍存在的现象,则说明确实存在相当一部分“编码基因”被错误地标注成了“非编码基因”,这将意味着人基因组需要被系统性地重新注释。
该问题很早就被学界所关注,但科学界一直未给出有效的解决方法。传统的蛋白质组质谱技术难以有效发现这些“隐藏的蛋白质”。2014年,人类蛋白质组草图在Nature上发表,声称发现千余个“非编码基因”所编码的“新蛋白质”,但随后便被人类蛋白质组组织 (HUPO) 爆出其分析不合规范,在用较严格的标准进行质控后,这些所谓的“新蛋白质证据”几乎都被认为是假阳性而不予认定。
承启生物首席科学家、暨南大学张弓教授于2012年开发成功翻译组测序技术 (RNC-seq),即测定翻译中的全长mRNA。由于该项技术能准确监测翻译过程,精度比质谱高很多,可用于指导蛋白质组学,规避上面提到的问题,因此很快被作为人类蛋白质组计划的核心支柱之一,并在2014年被人类蛋白质组组织列为人类蛋白质组计划的首要突出贡献。
2018年,中山大学张弩教授、暨南大学张弓教授等人便用翻译组测序技术,发现了人细胞内8000多个环状RNA可能翻译出蛋白质,颠覆了“只有极少数环状RNA才能翻译成蛋白质”的传统观念,并确证了其中一个蛋白质LINC-PINT具有明确的抑癌功能,显示了翻译组测序技术在寻找新蛋白方面所起到的积极作用。
而在本次发表的论文中,暨南大学何庆瑜教授、张弓教授、王通教授研究组发现了约4700个人类“非编码基因”实际上可能翻译成蛋白质,并提供了其中314个由长链非编码RNA (lncRNA) 表达的蛋白质证据。这些蛋白质不是小肽,而是含50个氨基酸以上的蛋白质,它们能稳定存在,并可在癌症等病变中发挥重要作用。
承启生物在该研究中提供了系统生物学数据分析,准确地预测了这些从未被人们认知的蛋白质在细胞中的定位及其可能的功能,相关结果已通过实验被证实。
本次研究发现的大批此前不为人知的新蛋白质,大规模地校正了人类基因组中的错误注释。这些新蛋白质中有不少与人类生理病理相关的重要分子,由此打开了一个全新的人类蛋白质宝库,为研究各种重大疾病打开了一扇大门。同时,也使得中国科学家有独立的方法检验与校正人类基因组的注释,不再依赖美国NCBI等数据库中的注释。