Mozilla开源语音募集计划Common Voice扩大支援简体中文

Mozilla

2019-05-08 19:14 7530

开发开源Firefox浏览器的非营利组织Mozilla宣布，其所推动之最大语音资料募集计划 -- Common Voice平台已正式支援简体中文。从现在开始，网友可到Common Voice的简中网站录制音档。

Mozilla 开始收集大陆地区汉语语音资料，更进一步充实其公开语音资料集
现已收集27种不同语言的录音音档，并将再扩大支援72种语言
Common Voice （“同声计划”）是史上最大的开源语音转录文字资料集，其最新释出的资料库囊括来自逾4.2万贡献者以18种语言录制的音档，总长近1,400小时

台北2019年5月8日 /美通社/ -- 开发开源 Firefox 浏览器的非营利组织 Mozilla 宣布，其所推动之最大语音资料募集计划 -- Common Voice 平台已正式支援简体中文。在广大的 Mozilla 社群及语言专家伙伴的辛勤努力下，从现在开始，网友可到 Common Voice 的简中网站（https://voice.mozilla.org/zh-CN）录制音档。

语音介面是网际网路未来大势之所趋。车用语音助理、智慧手表、智慧灯泡等，内建语音辨识技术的装置可谓与日俱增。然而，相关技术的创新仍面临重大阻碍 -- 有意打造语音辅助方案的新创公司、研究人员或各种开发者都需取得大量、转录为文字的语音数据，才能训练机器学习的演算法。但现有公开语音资料集的语音资料量与支援语种数都极其有限，而私有的语音资料不但仅掌握在少数几家公司手中，而且费用高昂。

有鉴于此，Mozilla 自2017年6月起展开 Common Voice 计划，希望建立全球化的开源语音语料库，以因应语音介面的发展需求并突破现阶段的市场局限。Mozilla 认为，此类介面不该只把持在少数几家握有语音服务技术的厂商手中，而且，Mozilla 希望能让使用者以自己的语言和熟悉的腔调来吸收和了解资讯。

已收集包括汉语（简中）在内的27种语音资料

Common Voice 在2018年6月开始收集多语语音资料。从那时起，此专案便不断壮大，变得更全球化、更具包容性。在过去10个月间，大批的热血贡献者踊跃响应，已在 Common Voice 网站上发起27种语言音档的收集计划，另外还有高达72种语言的录音计划正在进行中。

最新加入的语言是汉语（简体中文）。现在，世界各地的网友都可到 https://voice.mozilla.org/zh-CN 网站捐声音，或验证其他人录音的音档。

Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。

语音贡献者还可选择保留专案纪录，以掌握自己的录音纪录。此外，他们也可选择提供人口特征资讯，以协助 Mozilla 改善用以训练语音识别引擎的语音资料。

一如 Common Voice 收集的其他语言资料，Mozilla 对于汉语（简中）的目标是要累积约1万小时之通过验证的音档，因为1万小时的音档量才足以训练出完备的语音辨识系统。除此以外，这还附带另一个好处：所有人都可“同声”一气，共同推动语音辨识技术的进展。无论在上班途中、在公车上、午休时间、在家里，或与亲朋好友齐聚一堂时，不管是透过 voice.mozilla.org 网站或 iOS 应用，只要有手机或电脑，就能捐声音或验证其他人的音档。

Mozilla 开源创新计划总监 George Roter 表示：“就算一个人只录或听几秒钟的音档，但若贡献者多达数十万，加起来的资料量就非常惊人！当更多人都愿意出一份力时，这套语音资料集的价值就能更快提升。”

释出多语语音资料集

Mozilla 将一本初衷、继续充实语音资料集的内涵，使其成为人人可用的公有资源。Mozilla 已于今年二月释出第一批的多语语音资料集，其中共涵盖18种语言的录音音档，包括：英文、法文、德文和华语（正体中文）等广泛通行的语言，以及威尔斯语及卡拜尔语等较为冷门的语言。Common Voice 至今已收集逾4.2万人贡献的录音，总长度约1,400小时，且语音资料量仍持续成长中。

在此资料集释出后，Common Voice 的规模已超越其他同类型的语音资料集，并已将数万人的录音音档及对应文字开放给公众使用（采 CC0 授权）。任何人都可到 Common Voice 网站下载完整的语音资料集。

Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。

George Roter 进一步表示：“Mozilla 致力于促进更多元创新之语音科技生态系的发展。我们不但希望能自行推出语音技术的产品，也立志倾力支援研究人员及小公司的发展，在建立全球最大公共的多语语音资料集的过程中，我们很荣幸得到越来越多人的帮助，也很感谢志愿者的热情相挺，让我们成功展开对于简体中文的支持。”

消息来源：Mozilla