亚马逊将发布超过400万字的会话和知识数据集

2019-06-15 11:19:50 来源：作者：

亚马逊计划提供大量针对自然语言处理研究的数据样本。西雅图公司今天表示，在2019年9月，它将发布Topical Chat数据集，这是一系列众包的人类对话，提供给参加年度Alexa Prize Socialbot Grand Challenge的团队。

亚马逊称，Topical Chat数据集包含超过210,000个话语或超过4,100,000个单词，使其成为最大的公共社交对话和知识数据集之一。每个语料库的对话和对话轮次与提供给群众工作者的知识相关联，并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示，没有任何谈话是与Alexa客户的互动。

“这个系列的目标是实现知识接地神经反应生成系统的后续研究步骤，解决其他公开数据集无法解决的自然对话中的难题，”Hakkani-Tur说。“这将使研究人员能够专注于人类在主题之间的转换，知识选择和丰富，以及将事实和意见融入对话...... [并支持]高质量，可重复研究的出版。”

亚马逊表示，竞争Alexa Prize的团队可以访问数据集的扩展版本 - 名为Extended Topical Chat的数据集 - 其中包括正在进行的收集和注释的结果。

亚马逊开源数据集可用于训练AI模型识别跨语言和脚本类型的名称，大约六个月后发布了今天的公告。它被称为“音译多语种命名实体音译系统”，它包含近400,000种语言，如阿拉伯语，英语，希伯来语，日语片假名，以及从维基百科中删除的俄语。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。