北京2022年9月26日 /美通社/ -- 日前,由上海世纪出版集团统一规划、上海古籍出版社论证实施的"尚古汇典·古籍数字服务平台"一期项目正式上线。该平台是一个基于光学文字识别(OCR)、自然语言处理、大规模语料库等智能算法技术,聚合上海世纪出版集团内部古籍资源,所形成的一个链接并服务古籍整理出版者、古籍专业研究者、传统文化爱好者的古籍内容生产与知识服务的数字化开放平台。浪潮信息与元脑伙伴上海华胄为上海古籍出版社提供技术支持,平台现已涵盖古籍整理1168种,总字数超过3亿字,并且即将开放古籍OCR、自动标点、自动标引等工具。
AI加速推动古籍整理利用转型升级
一直以来,古籍保护主要采用原生性保护方式,即把古籍当作"文物"保护起来,后来出现再生性保护方式,对古籍进行影印再造和影像保存,此种方式呈现的图像整体质量较低,翻阅难度大,难以满足读者和研究人员的需要。近十几年来,各种古籍数据库服务开始兴起,但是市面上的产品大多良莠不齐,缺少精品。
为增补完善国家古籍数字化基础资源、全面盘活古籍核心文献、完善古籍知识生产和服务模式,由上海古籍出版社打造的"尚古汇典·古籍数字服务平台"于去年9月启动,一期项目于近期正式上线,用户可以实现古籍全文检索、在线阅读,同时提供联机字典、纪年换算等实用工具。
在技术上,"尚古汇典·古籍数字服务平台"将分别筹划打造以知识生产及知识服务为目标的两个技术平台,即以古籍全文识别系统(OCR)、古籍智能整理系统、古籍智能算法平台为基础的知识生产平台,和实现海量古籍文献在资源层、内容层、语义层的关联,以此构建的古籍知识服务平台。
元脑伙伴上海华胄助力打造先进算力底座
古籍的提取并不是一件容易的事情,由于年代久远、水解、氧化、微生物降解等原因,很多古籍都难完整保留下来,科研人员需要对其进行更大规模的提取,以获得更多的有效数据。
无论是古籍的分析还是提取,或是针对研究数据的处理,背后都对算力提出了极高的要求。过去科研人员通常使用台式机和普通的服务器进行一系列数据分析,单次处理的古籍数量非常有限。随着古籍技术平台的升级,科研人员的捕获能力得到增强,实验所得的古籍文字量大幅提升,继而带来了巨大的数据处理任务,当前算力已经远远无法满足需求。
作为元脑合作伙伴,上海华胄为上海古籍出版社提供最新一代AI旗舰服务器灵活布置次级业务系统,保障业务系统的高可用,为古籍研究带来源源不断的优质算力,为其搭建高效应用平台。
该平台的OCR系统、自动标点与自动标引技术开发都已趋于成熟,其中OCR技术可以在一分钟以内完成200页古籍图像的识别,准确率超过93%。OCR输出的文本在经过自动标点和标引之后,可以快速达到可检索、便于阅读的目的,极大方便了学术研究。未来,这一平台还通过解析上海古籍出版社海量古籍资源内容,对其进行知识结构化揭示,重构原有的古籍内容组织形式,并创建全新的知识模块,实现古籍资源的知识化、专业化服务。
上海古籍出版社副社长吴长青表示,通过采用OCR的文本生成技术、自然语言处理的文本整理与标引等先进技术,大量优秀古籍可以在准确权威的平台上与公众、专业研究人员面对面,使用效率大幅提高,有力促进海量优秀传统文化信息便利快捷有效利用。
古籍文化不止是义理、训诂与考证,古代文学的研究也不应该只停留在古籍馆与古文工作者的论文中,其价值更在于以古人的感受、思考去慰藉、照亮现代人。浪潮信息、上海华胄未来将基于元脑AIStore,积极探索大数据、语义网络关联及知识图谱等技术在古籍行业的应用,推进中华优秀传统文化的创造性转化和创新性发展,并以此赋能古籍整理出版和学术研究、国学传习。