趋势前沿达摩院语音AI最新技术大

凌云时刻

作者：陈谦、邓憧、付强、高志付、胡凯、罗浩能、纳跃跃、田彪、王雯、鄢志杰、张仕良、张庆林、郑斯奇（以姓氏首字母排序）

过去十年，语音AI从实验室走向应用，语音搜索、交互早已融入日常。本文将带你一览达摩院语音AI技术创新全景，一起感受能听、会说、懂你的语音AI。

当你在家中与智能音箱进行交互对话，当你使用天猫超市或菜鸟裹裹接到机器人打来的配送确认及回访电话，当你利用淘宝高德优酷等App进行语音搜索，当你听到数字人动听的话语及各种悦耳的视频配音……这些背后，都是语音AI技术的应用。

AI的很多研究方向，都和人的感知相关。如果说计算机视觉对应的是眼睛，语音AI做的就是耳朵和嘴巴——耳朵是语音识别，把语音转成文字，嘴就是语音合成，把文字转成语音。语音AI作为人工智能应用的核心技术之一，在过去十年的时间里持续进步，从实验室研究走向了实际应用和价值创造阶段，并不断解锁新场景，将此前做不了、做不好的技术变得能做，且体验越来越好。不仅如此，语音AI技术已经开始挑战并解决一系列更难的应用课题。正如Googlevoicesearch解锁了手机上的语音搜索；AppleSiri解锁了语音助理；AmazonEcho解锁了远场语音交互……达摩院语音实验室判断，下一个语音技术解锁的场景将会是用更多“人-人”交流替代当前“人-机”交互模式的会议场景。恰逢图灵诞辰周年，我们与大家一起来分享下达摩院语音AI技术创新全景，包括语音识别声学模型和基础框架、说话人区分、语音合成声学模型和声码器、口语语言处理、联合优化的声学前端等多方面的研究和应用进展。能听：技术创新之语音识别基础算法研究在语音识别的场景下，拾音质量是一个很关键的因素。当年IBM的ViaVoice，要带一个耳麦讲话，现在手机可以在稍远距离准确识别，智能音箱又可以做到更大距离。但这些的前提是，周边不会有太多的噪声，而且这些场景都是单人的，都是跟机器去完成一个单独的任务——要么是听写，要么是想点一首歌。但如果加了很多别的因素，准确率就会逐渐下降，说话场所的不同、空间大小的差异、说话人的多寡、情绪语种语速的交杂，各种声音在空间内不断反射产生混响，再加上环境本身带来的噪音，对机器识别来说是极大的挑战。对我们人类来说，“谁在什么时间说了什么话”非常好识别，因为我们不仅能靠灵敏的耳朵区分不同音色、判断声音方位，还能看到说话人的肢体在动，同时大脑不断用知识储备分析着话语，但对于语音识别而言，如何使机器也具备这些智能呢？语音识别基础框架UNIVERSAL-ASR语音识别基础框架过去几十年，基于混合框架的语音识别系统一直是学术界和工业界主导框架，其系统包括独立优化的声学模型（AcousticModel，AM）、语言模型（LanguageModel，LM）、发音词典（Lexicon）和解码器，系统构建流程复杂。近几年，端到端语音识别（End-to-End，E2E）成为了学术研究热点。端到端语音识别通过一个网络建模语音识别系统，不仅简化了系统构建复杂度，而且通过联合优化预期可以获得更好的建模效果。阿里巴巴语音实验室结合上一代DFSMN网络结构和学术界流行的Transformer创新性提出了SAN-M网络结构，并且提出了StreamingChunk-AwareMultiheadAttention（SCAMA）流式Attention机制构建了新一代的端到端语音识别框架，显著提升语音识别系统性能。日益丰富的业务需求，不仅要求识别效果精度高，而且要求能够实时地进行识别。一方面，离线语音识别系统具有较高的识别准确率，但无法实时的返回解码文字结果，并且，在处理长语音时，容易发生解码重复，且高并发解码超时等问题；另一方面，流式系统能够低延时实时进行语音识别，但由于缺少下文信息，流式语音识别系统的准确率不如离线系统，在流式业务场景中，为了更好的折中实时性与准确率，往往采用多个不同时延的模型系统。为了满足差异化业务场景对计算复杂度、实时性和准确率的要求，常用的做法是维护多种语音识别系统，例如，CTC系统、E2E离线系统、SCAMA流式系统等。在不同的业务场景使用不同的模型和系统，不仅会增加模型生产成本和迭代周期，而且会增加引擎以及服务部署的维护成本。

因此，阿里巴巴语音实验室创新性地提出和设计了离线流式一体化语音识别系统--UNIVERSALASR，同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，还可在说话句尾用高精度的解码结果修正输出，与此同时，UNIVERSALASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。通过设计UNIVERSALASR语音识别系统，我们将之前多套语音识别系统架构统一为一套系统架构，一个模型满足所有业务场景，显著的降低了模型生产和维护成本。

图1UNIVERSAL-ASR语音识别基础框架

UNIVERSALASR模型结构如上图所示，包含离线语音识别部分和流式语音识别部分。其中，离线与流式部分通过共享一个动态编码器（Encoder）结构来降低计算量。流式语音识别部分是由动态时延Encoder与流式解码器（Decoder）构成。动态时延Encoder采用时延受限可控记忆单元的自注意力（LC-SAN-M）结构；流式Decoder采用动态SCAMA结构。离线语音识别部分包含了降采样层（SrideConv）、Big-ChunkEncoder、文本Encoder与SCAMADecoder。为了降低刷新输出结果的尾点延时，离线识别部分采用大Chunk流式结构。其中，StrideConv结构是为了降低计算量。文本Encoder增加了离线识别的语义信息。为了让模型能够具有不同延时下进行语音识别的能力，我们创新性地设计了动态时延训练机制，使得模型能够同时满足不同业务场景对延时和准确率的要求。

根据业务场景特征，我们将语音识别需求大致分为3类：

低延迟实时听写：如电话客服，IOT语音交互等，该场景对于尾点延迟非常敏感，通常需要用户说完以后立马可以得到识别结果。流式实时听写：如会议实时字幕，语音输入法等，该场景不仅要求能够实时返回语音识别结果，以便实时显示到屏幕上，而且还需要能够在说话句尾用高精度识别结果刷新输出。离线文件转写：如音频转写，视频字幕生成等，该场景不对实时性有要求，要求在高识别准确率情况下，尽可能快的转录文字。

为了同时满足上面3种业务场景需求，我们将模型分成3种解码模式，分别对应为：fast、normal和offline模式，在模型部署阶段，通过发包指定该次语音识别服务的场景模式和延时配置。这样，通过UNIVERSALASR系统，我们统一了离线流式语音识别系统架构，提高模型识别效果的同时，不仅缩小了模型生产成本和迭代周期，还降低了引擎以及服务部署维护成本。更多技术细节可以参考我们的技术论文：

转载请注明：http://www.abuoumao.com/hytd/745.html

上一篇文章：米家好物米家扫地机器人amp米家

下一篇文章：区别不同石头g10s和科沃斯t10tur