澳鹏全新成品数据集助力MediaInterface快速部署新市场

澳鹏Appen

2021-04-22 18:51 4325

近期，澳鹏Appen与MediaInterface达成合作，填补了其关键的数据空白，助力其实现快速部署新市场。

悉尼和旧金山2021年4月22日 /美通社/ -- 近期，澳鹏Appen与一家语音识别技术公司 -- MediaInterface达成合作，填补了其关键的数据空白，助力其实现快速部署新市场。

语音识别技术在医疗领域的应用

几年前，北京协和医院曾开展过一项关于文档录入工作量的调研。结果显示，我国超过40%的医生每天在计算机前进行文字录入的时间约为4小时，超过一半的医生每天进行文字录入的时间占工作总时间的40%。医生们普遍对于提高病历录入效率有着强烈需求。

MediaInterface是一家颇具代表性的语音识别技术公司

语音识别技术是一种相对成熟的解决方案。在许多欧美国家，语音识别技术在医疗领域的应用已超过10年。近年来，美国临床中语音识别录入的应用比例更是已近20%。MediaInterface便是其中一家颇具代表性的语音识别技术公司。

更高效的医疗文档工作流程

以德国为中心发散，MediaInterface已经为欧洲许多国家的医疗机构提供语音技术解决方案长达20余年。如同它的名字一样，其核心产品SpeaKING便是利用语音识别AI技术支持医疗文档的高效工具。目前，该产品已帮助600+家医院、700+家医疗机构、75,000+名用户实现速度更快、质量更高的医疗文档工作流程。

凭借20多年来在欧洲多个国家的成功经验，MediaInterface希望将业务拓展至法国。然而，在业务拓展的过程中，他们遇到了法语数据资源不足的问题。

从德国到法国

尽管拥有20余年的行业经验，MediaInterface拥有的法语数据却并不多。要想拓展法国市场，MediaInterface必须建立全面的法语词汇基础。他们迫切需要具有高质量语音转录功能的专业法语“词典”。

这本“词典”中，最大的数据空白是患者健康信息中经常引用的法语姓名和地点。但这些数据却难以获取：《欧洲通用数据保护条例》规定，可供收集的健康数据必须匿名处理，因此不包括人名和地名。MediaInterface必须寻求专业的外部资源，在遵守当地数据法规的前提下，帮助他们填补这些重要的数据空白。

Appen法语数据资源及时助力MediaInterface拓展法国市场

MediaInterface产品经理Ines Wendler表示：“我们当时正在向新市场拓展。尽管我们拥有先进的技术和软件，但数据资源的缺乏让我们的产品难以在当地推行。Appen的法语数据资源及时帮助了我们。”

快速部署新市场

MediaInterface与澳鹏Appen结缘于2015年的INTERSPEECH语音技术大会。此次法国市场的拓展则促成了双方的合作。目前，MediaInterface已通过澳鹏获取到约21,000个法国人名和14,000个法国地名，从而填补了最关键的数据空白。

澳鹏数据集帮助MediaInterface开拓客户群并改善数据质量和客户体验

澳鹏Appen通过种类丰富的OTS成品数据集助力MediaInterface针对某一集中需求的产品开发，从而拓展到全新的市场，并增强未来进入更多市场的可能性。目前，MediaInterface已在法国全面覆盖了医疗机构对基本口述语音识别的需求，为法国客户提供了较高的可信度。凭借数据资源的丰富，SpeaKING中的SmartLearning功能还可以让用户在其中添加自己的文本，以个性化现有词汇，从而通过向基础AI模型中添加数据的方式来提高语音识别的效果。

就MediaInterface而言，澳鹏数据集为其配备了工具，在开拓客户群的同时，亦改善了数据质量和客户体验。不仅仅是MediaInterface，澳鹏Appen成品数据集已帮助许多企业以更高的产品准确性实现了快速的部署。

澳鹏OTS成品数据集上新

澳鹏本次更新的OTS成品数据集*，包括人体运动和婴儿啼哭声，以及市场需求量高但通常难以获得的语言（如阿拉伯语、克罗地亚语、希腊语、匈牙利语、泰语等）的脚本化语音和带有可识别文本的图像。全新数据集的加入使澳鹏Appen的OTS数据集总数达到250+个，包括11,000+小时的音频、25,000+张图像以及涵盖80+种语言及方言的870万+个单词。

其中主要包括：

他加禄语、阿拉伯语、高棉语、克罗地亚语、希腊语、匈牙利语、波兰语、西班牙语、土耳其语等多语种/方言数据库
德语、法语、俄语等自由说语音数据库
多姿态、多光线人像图片数据库
简体中文、泰文、芬兰文等印刷文本图像OCR
广告牌、外包装、标牌、杂志、菜单等，用于训练和更新计算机视觉OCR模型
适用于游戏开发、健身应用等的像素级跟踪移动视频
人体运动（中国）
婴儿啼哭声（中国）等

MediaInterface核心产品SpeaKING是利用语音识别AI技术支持医疗文档的高效工具

所有澳鹏Appen数据集都采用完全透明的方式进行开发，确保数据安全且合规，从而助力高质量、负责任的AI部署。

*成品数据集（也称OTS数据集）是一种高效、低成本的工具，可通过高质量的训练数据快速启动人工智能或机器学习项目。OTS数据集通常的交付时间在一周之内，而全新的数据集采集和标注项目根据其复杂程度，则通常需要8到12周的交付时间。与传统方法相比，OTS数据集缩短了实现价值的时间，并以较低的总成本提供了对高质量数据的使用权。

消息来源：澳鹏Appen