目前而言事件抽取存在着训练数据不足的缺陷,以经常用来做实验的公开数据集 ACE 2005 来说,该数据集文档数仅599篇,所以需要针对文档事件抽取任务构建数据集。远程监督被证明可以为关系抽取以及事件抽取任务自动生成大量数据[4],以关系抽取中的远程监督举例,如图3,在已有的数据库FreeBase中,已知Steve Jobs 与 Apple 具有founders关系,并且Freebase中提供了相关的表示founders关系的样本句子。但是我们觉得样本数量过少,希望能够根据已有知识来扩展一下数据集,以方便我们模型的训练。我们从外界获得大量的文本,进行关键词的匹配,只要是在同一句话中同时出现了Steve Jobs 以及Apple 这两个实体,我们就假设这句话表达了二者之间具有的founders关系,对这句话进行标注,并加入到训练数据集之中。因此通过远程监督的方法来完成数据的自动标注[1],该数据集共包含2976篇文档,其中91%的事件的论元均分散在多个句子中。Shun Zheng et al.直接花费大量人力手工标注得到数据集ChFinAnn,该数据集共包含32040篇文档。
4. 方法
动态融合文档不同层次信息
文档级事件抽取任务无法利用句子层面的抽取方法得到解决,最主要的原因便是一个事件的论元分散在了不同的句子当中,因此如何获取跨句子信息就显得较为重要,以往的方法均是将一个句子作为输入,获得该句子的事件元素。因此最直接的想法便是将整篇文档作为输入,输出事件元素,但实验证明该该种方法效果不佳[2],Xinya Du et al.工作表明,随着输入长度的增加,即一次输入一个句子、k个句子(k=2,3,4)以及整篇文档,准确率呈现先上升后下降,而召回率呈现先下降后上升,最终F1值并没有得到提升,该工作表明文档级事件抽取不仅要关注文档级上下文,句子级上下文也同样重要。因此,提出将文档在不同粒度的信息进行融合用于抽取。具体结构如图5所示,整体上将抽取任务转化为序列标注任务,可以看到模型从两个层次进行信息的获取,左半部分将句子逐句进行编码后输入至Sentence-Level BiLSTM,得到的编码进行拼接,进而获取这k个句子在句子级别的表示,右半部分将这k个句子一起进行编码,然后同时输入至Paragraph-Level BiLSTM,得到这k个句子在文档级别的表示,然后将两者通过门控机制进行融合,如下所示:
[1]Hang Yang, Yubo Chen , Kang Liu , et al.: DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2018: 50-55.[2]Xinya Du, Claire Cardie.: Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encoding. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2020.[3]Shun Zheng, Wei Cao, Wei Xu, et al.: Doc2EDAG: An end-to-end document-level framework for chinese financial event extraction. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 337-346.[4]Yubo Chen, Shulin Liu, Xiang Zhang, et al:. Automatically labeled data generation for large scale event extraction. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 409-419.