基于图神经网络的文本分类新方法

科技工作者之家 2020-06-24

来源:中国科学院自动化研究所

“分门别类”是个好习惯,你大概也被老师、父母一遍遍地叮嘱督促过:快把东西分类收拾好!!

但是,当我们面对大量的文本信息时,又该如何高效精确地处理呢?这就不得不提到“文本分类”啦,今天就带你了解自动化所团队文本分类的最新研究!

文本分类是自然语言处理和信息检索领域中的基础问题,也是关键问题。分类方法的好坏往往决定了对文本内容的理解程度,为其他文本相关任务(如文本匹配、文本检索、情感分析等)提供必要条件。

传统的文本分类方法(如卷积神经网络和循环神经网络)主要对文本进行顺序化处理,即从头到尾依次进行编码。这样的问题在于,每个单词的学习仅依赖于其附近的单词,无法捕获中长距离的依赖关系,并且重复的单词会学习多次,增加了学习的难度。

中科院自动化所智能感知与计算研究中心张羽丰、吴书等人,受到图结构数据易于建立整体关联关系的启发,提出一种基于图神经网络的归纳式文本分类方法。不再以完全顺序化的方式学习文本内容,而是将文本构建为复杂关联的图结构进行学习,为上述问题提供了解决思路。相关成果发表于顶级国际会议ACL 2020。

该工作以单词为节点、单词间的共现关系为边,将每个文档构建为拥有自身结构的图,将文本分类任务转化为图分类任务。通过应用图神经网络模型,单词可聚合学习所有关联单词的表示,同时也可捕获中长距离的上下文关系。最后使用最大池化加平均池化的方法,将所有单词聚合为该文本的表示,进而得到其分类标签。

wt_a62322020065000627_38b1ba.jpg

基于图神经网络的文本分类模型示意图

该模型在多个数据集中均取得最好性能,同时适用于归纳式学习,即当文本包含较多新词的时候,也能取得不错的效果。

该项研究在自然语言处理、信息组织和管理、内容信息过滤等领域都有着广泛的应用,例如舆情监测、新闻分类、垃圾邮件过滤、个性化推荐等,也为相关领域的问题提供了新的研究思路。

论文

Yufeng Zhang, Xueli Yu, Zeyu Cui, Shu Wu, Zhongzhen Wen, Liang Wang. Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks. In ACL 2020.

来源:casia1956 中国科学院自动化研究所

原文链接:https://mp.weixin.qq.com/s?__biz=MzA5MDU0MTYxNw==&mid=2650783897&idx=1&sn=e221af0a1ed29e5c1fde760e894da155&chksm=88017bc7bf76f2d1d70072256e991e8a2ad80dc6d3e3c28efcef1e3ea447db5bf628928cc3dc#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

神经网络 自然语言处理 文本分类

推荐资讯