Google AI技术可将语音识别错误降低29％

2019-06-22 14:13:57 来源：作者：

这些天语音识别非常好。EdgeSpeechNet等最先进的模型在去年年底的研究论文中有详细介绍，能够达到97%的准确率。但即便是最好的系统也会偶然发现不常见的罕见词汇。

为了缩小差距，谷歌和加利福尼亚大学的科学家提出了一种方法，可以利用纯文本数据训练的拼写校正模型。在预印本服务器Arxiv.org上发表的一篇论文(“ 用于端到端语音识别的拼写校正模型 ”)中，他们报告说，在使用800字，960小时语言建模LibriSpeech数据集的实验中，他们的技术显示相对于基线，单词错误率(WER)相对改善18.6%。在某些情况下，它甚至可以减少29%的错误。

他们写道：“目标是将一个受[文本]数据培训的模块纳入端到端框架，目的是纠正系统所犯的错误。” “具体来说，我们使用文本到语音(TTS)系统调查使用不成对的......数据[生成]音频信号，这个过程类似于机器翻译中的反向翻译。”

正如本文作者所解释的那样，大多数自动语音识别(ASR)系统共同训练三个组成部分：一个学习音频信号与构成语音的语言单位之间关系的声学模型，一个为单词序列分配概率的语言模型，以及一种机制，用于对声学帧和识别的符号进行对齐。所有这三者都使用单个神经网络(以生物神经元为模型的分层数学函数)和转录的音频 - 文本对，因此，当语言模型遇到语料库中不经常出现的单词时，通常会遭受性能下降。

然后，研究人员着手将上述拼写校正模型纳入ASR框架 - 一种将输入和输出句子解码为称为“词组”的子词单元的模型，它采用嵌入词(即映射到向量的特征)实数)并将它们映射到更高级别的表示。他们使用纯文本数据和使用文本到语音(TTS)系统(并行WaveNet)生成的相应合成音频信号来训练LAS 语音识别器，这是2017年Google Brain研究人员首次描述的端到端模型，然后创建一组TTS对。然后，他们“教导”拼写纠正器纠正识别器通过给它们提供的潜在错误。

为了验证模型，研究人员训练了一个语言模型，生成了一个TTS数据集来训练LAS模型，并产生了错误假设来训练拼写校正模型，其中包含了来自LibriSpeech数据集的4000万个文本序列，过滤掉了500,000个序列仅包含单字母单词和短于90字的单词。他们发现，通过纠正来自LAS的条目，语音校正模型可以生成具有“显着”较低的字错误率的扩展输出。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。