亚马逊将发布超过400万字的会话和知识数据集

2019-06-15 11:19:50

亚马逊计划提供大量针对自然语言处理研究的数据样本。西雅图公司今天表示,在2019年9月,它将发布Topical Chat数据集,这是一系列众包的人类对话,提供给参加年度Alexa Prize Socialbot Grand Challenge的团队。

亚马逊称,Topical Chat数据集包含超过210,000个话语或超过4,100,000个单词,使其成为最大的公共社交对话和知识数据集之一。每个语料库的对话和对话轮次与提供给群众工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何谈话是与Alexa客户的互动。

“这个系列的目标是实现知识接地神经反应生成系统的后续研究步骤,解决其他公开数据集无法解决的自然对话中的难题,”Hakkani-Tur说。“这将使研究人员能够专注于人类在主题之间的转换,知识选择和丰富,以及将事实和意见融入对话...... [并支持]高质量,可重复研究的出版。”

亚马逊表示,竞争Alexa Prize的团队可以访问数据集的扩展版本 - 名为Extended Topical Chat的数据集 - 其中包括正在进行的收集和注释的结果。

亚马逊开源数据集可用于训练AI模型识别跨语言和脚本类型的名称,大约六个月后发布了今天的公告。它被称为“音译多语种命名实体音译系统”,它包含近400,000种语言,如阿拉伯语,英语,希伯来语,日语片假名,以及从维基百科中删除的俄语。