捷通华声灵云语音质检系统--深度神经网络的新应用

2014-03-21 14:25

前言：深度神经网络（DNN）是近几年在工业界和学术界新型的一个机器学习领域的热点话题。DNN算法成功的将以往的智能识别率提高了一个显着的档次，可以极大地提高图像、语音识别的准确度，可以更快地推动智能人机交互（HCI）技术的进步。

　　自DNN发展以来，该技术已成功应用于语音识别技术领域，并取得很好的效果，在移动互联网中已实现广泛应用。近一年来，伴随语音质检系统在各在呼叫中心得到越来越广的重视，捷通华声通过与清华大学合作，成功将深度神经网络应用到灵云语音质检分析系统中，促进语音转写识别率达到实用化水平，从而使语音质检质量与效率得到大幅提升。

　　深度学习神经网络是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。2010年，微软雷德蒙研究院发现深层网络可显着提高语音识别的精度。此后，微软亚洲研究院在测试中发现应用DNN的语音识别模型识别错误率比最低错误率降低了33%之多，即绝对识别率提升了6.6%。

　　“使结果发生翻天覆地变化的是DNN，通过应用DNN，在日常对话中，最多可使单词识别错误率比之前降低42%。这意味着，以往10个错误，有4个能用这种方法解决。这是自HMM（隐马尔科夫模型）出现以来，单项技术使语音识别精确度获得的最大提升”，微软亚洲研究院研究员Frank Seide解释道。

　　显然，比起传统的混合高斯模型（GMM），DNN在识别精度上具有相当的优势。

　　在采用了最先进的第4代深度神经网络算法后，捷通华声灵云语音识别的通用语音识别率达到93%以上，定制模型的识别率达到97%以上，各项指标已经达到国内最好水准。然而，在对其他声源的识别能力上DNN是否会有所突破呢？2013年，捷通华声与清华大学合作，开始在灵云语音质检系统上应用DNN技术。该系统以识别“电话通道语音”为核心，将通话录音中的语音信息提取出来，通过灵云语音识别转换成文本保存在系统中，再通过提取关键词、静音检测、情绪检测、语速检测等方式对语音进行筛选分析，从而得出质检结果。通过灵云语音质检系统，可以帮助客户将客服录音数据进行各种分析，从而针对性地改善呼叫中心的服务质量。其中除对企业自身呼叫中心质检之外，这套系统还可以为企业分析客户的反馈意见，跟踪广大用户的热点问题，从而对公司的产品和服务提出优化建议，实现更加精准的市场决策。因此，“电话通道语音”识别的精度越高意味着语音质检的效率越高、客户体验越好。在应用DNN之后，客户普遍反映灵云语音质检的质量和效率已经有明显的提升，证明了DNN在多声源识别中的适用能力。

　　DNN的火热虽早已经引起语音企业的重视，而图像是DNN最早尝试的应用领域--它已经使 YouTube的视频分类提高了70%的准确率。而恰好图像识别又是灵云的另一条主打产品线：灵云智能图像。在语音识别和DNN产生化学反应后，我们有理由期待灵云智能图像识别&DNN在票证、车牌、人脸等图像识别领域的更新的表现。

　　捷通华声在语音识别、图像识别等技术领域全面应用DNN，得到了清华大学的鼎力支持。2013年，清华大学产业基金入资捷通华声，成为捷通华声第二大股东，也因此确立了捷通华声与清华大学的战略合作关系，并得到清华大学HCI领域中强大科研力量的支持。捷通华声凭借自身在智能语音、智能图像、自然语言理解等技术领域的技术积累，与清华大学HCI技术各领域实验室、专家教授建立起联合研究机制，为长期发展HCI技术奠定了坚实的基础。

　　捷通华声此次与清华大学在DDN领域的成功合作，也标示清华大学在HCI技术领域的雄厚科研力量通过与市场需求的紧密结合，开始全面服务社会。未来发展，捷通华声将发扬清华大学在国家科技进步、国民经济建设中的强大推动力与影响力，全面推进灵云发展战略，促进提升清华大学HCI技术在产业中的影响力，助力清华大学构建“学术超前、科研领先、产业化推广最强”的领导地位，从而共同实现“灵云科技源自清华服务全球”的战略发展规划，为中国HCI产业化发展做出更大的贡献。

消息来源：CTI论坛