一种用于文本分类的多表示卷积神经网络体系结构

2019-07-15 16:50:44

在过去十年左右的时间里,卷积神经网络(CNN)已被证明在处理各种任务方面非常有效,包括自然语言处理(NLP)任务。NLP需要使用计算技术来分析或综合语言,包括书面和口头形式。研究人员已成功将CNN应用于若干NLP任务,包括语义分析,搜索查询检索和文本分类。

通常,训练用于文本分类任务的CNN 处理单词级别的句子,将单个单词表示为向量。尽管这种方法可能与人类处理语言的方式一致,但最近的研究表明,在角色级别处理句子的CNN也可以取得显着的成果。

字符级分析的一个关键优势是它们不需要先前的单词知识。这使CNN更容易适应不同语言并获得拼写错误导致的异常单词。

过去的研究表明,不同级别的文本嵌入(即字符,单词或文档级别)对于不同类型的任务更有效,但仍然没有明确的指导如何选择正确的嵌入或何时切换到另一个。考虑到这一点,中国天津工业大学的一个研究小组最近开发了一种新的CNN架构,该架构基于通常用于文本分类任务的表示类型。

“我们通过构建多个平面,基于多个表示来提出CNN的新架构,以便将更多信息转储到网络中,例如通过命名实体识别器或词性标注工具获得的文本的不同部分。 ,不同级别的文本嵌入或上下文句子,“研究人员在他们的论文中写道。

由研究人员设计的多代表性CNN(Mr-CNN)模型基于这样的假设:书面文本的所有部分(例如名词,动词等)在分类任务中起关键作用,并且不同的文本嵌入更有效用于不同的目的。他们的模型结合了两个关键工具,斯坦福命名实体识别器(NER)和词性(POS)标记器。前者是一种在文本中标记事物的语义角色的方法(例如人,公司等); 后者是一种用于将部分语音标签分配给每个文本块(例如,名词或动词)的技术。

研究人员使用这些工具预处理句子,获得原始句子的几个子集,每个子集包含文本中特定类型的单词。然后他们使用子集和完整句子作为他们的Mr-CNN模型的多个表示。

当使用来自各种大规模和特定领域数据集的文本对文本分类任务进行评估时,Mr-CNN模型获得了显着的性能,一个数据集的错误率提高了13%,另一个数据集提高了8%。这表明,文本的多种表示允许网络自适应地将注意力集中在最相关的信息上,从而增强其分类能力。

“各种大规模的,特定领域的数据集用于验证所提出的架构,”研究人员写道。“分析的任务包括本体文档分类,生物医学事件分类和情感分析,表明学习将注意力集中在文本的特定表示上的多代表性CNN 可以获得超过最先进深度神经的性能的进一步提高网络模型。“

在他们未来的工作中,研究人员计划研究细粒度特征是否有助于防止训练数据集的过度拟合。他们还希望探索其他可以增强对句子特定部分进行分析的方法,从而进一步提高模型的性能。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。