Alexa AI科学家通过半监督学习将语音识别错误降低了22％

2019-08-06 15:47:39 来源：作者：

亚马逊的Alexa Speech团队科学家今天宣布，他们已经使用了他们认为有史以来最大的无标签数据集之一，用于训练声学模型并提高智能助理理解人声的能力。

使用半监督学习，一种结合人和机器标记用于训练AI模型的数据的方法，亚马逊科学家能够训练模型并将语音识别错误率降低10-22%，而单纯依靠监督的方法学习。在噪声较大的音频中可以看到语音识别错误减少的更大收益。

声学模型用7,000小时的标记数据训练，然后用100万小时的未注释或未标记的数据训练。声学模型是一系列AI系统之一，它为自动语音识别提供动力，将语音命令转换为计算机的动作。

“我们目前正在努力将新模型整合到Alexa中，预计发布日期为今年晚些时候，”Alexa高级应用科学家Hari Parthasarathi在一篇博文中表示。

这项工作将于下个月在英国布莱顿举行的IEEE国际声学，语音和信号处理会议上发表。

Alexa理解人声的能力的这些进步是通过使用称为师生培训的长短期记忆(LSTM)网络的方法实现的。“老师”经过培训，可以理解30毫秒的音频块，然后将一些理解传递给使用未标记数据的“学生”网络。

应用了许多其他技术来优化或加速模型训练，例如分析学生模型音频一次而不是两次，交错或混合两种模型，并在训练期间仅存储20种概率最高的教师模型输出，而不是结果分为3,000个不同的集群。然后，学生模型必须尝试准确匹配尽可能多的20个概率。

“7,000小时的注释数据比机器标记的数据更准确，因此在训练学生时，我们将两者交错。我们的直觉是，如果机器标记的数据开始以错误的方向引导模型，注释的数据可以提供路线校正，“帖子读取。

今天的新闻是在2月份宣布将语音识别错误率降低20%与其他半监督学习方法，以及使双麦克风阵列比七麦克风阵列更有效的进展，本周早些时候宣布。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。