AI研究人员的开源模型解释工具包AllenNLP解释

2020-03-18 18:07:58    来源:    作者:

来自加利福尼亚州欧文分校的艾伦人工智能研究所和研究人员发布了AllenNLP Interpret,该工具包用于解释自然语言处理(NLP)模型的结果。可扩展的工具包包括用于解释和可视化组件的几种内置方法,以及使用AllenNLP Interpret解释包含BERT和RoBERTa的最新NLP模型的结果的示例。

AI研究人员的开源模型解释工具包AllenNLP解释

在arXiv上发表的一篇论文中,研究团队更详细地描述了该工具包。AllenNLP Interpret使用两种基于梯度的解释方法:显着性图,确定输入句子中的每个单词或“标记”对模型的预测有多大作用;以及对抗攻击,尝试删除或更改输入中的单词,同时仍保持来自模型的相同预测。这些技术可用于各种NLP任务和模型架构。这些实现使用一组通用的API和可视化组件,为将来开发其他技术和模型支持提供了框架。

随着公司越来越多地使用AI来自动提供问题的答案,用户想知道为什么 AI会给出给定的答案。例如,在检测到信用卡交易欺诈的情况下,该交易特别暗示欺诈吗?

对模型如何产生答案的解释对于模型开发人员了解面对新数据时系统将如何泛化的能力也很重要。AllenNLP Interpret研究人员Sameer Singh经常引用该模型来区分狼和狗,但实际上只是学会了检测雪。

AI研究人员的开源模型解释工具包AllenNLP解释

对于某些机器学习算法,解释很简单:例如,决策树只是一系列if / then规则。但是,深度学习模型的输出可能更难以解释。

辛格的先前工作包括LIME,它使用线性逼近来解释更复杂模型的预测。AllenNLP Interpret使用基于梯度的方法,该方法可测量输入要素对输出的影响。由于计算此梯度是深度学习培训的关键组成部分,因此这些方法可以应用于任何深度学习模型。

尽管这些技术是通用的,但AllenNLP Interpret旨在用于NLP。NLP系统的输入是文本字符串,通常是句子或整个文档,然后将文本解析为其组成词或标记。AllenNLP Interpret包括显着性图,显示每个标记对模型预测的贡献;一个用例可能是解释句子中的哪些单词导致其情感被分为正面或负面。

AI研究人员的开源模型解释工具包AllenNLP解释

该工具包还包括两个对抗方法,这些方法显示了更改输入中的标记如何影响输出。第一,HotFlip,用其他单词替换斜率最高的输入单词,直到模型输出更改。另一种攻击是输入缩减,它会反复删除坡度最小的单词,而不会更改输出。这导致输入文本“通常是无意义的,但会引起高置信度预测”。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。