Document-Level Relation Extraction with Reconstruction
一、背景介绍
关系抽取是自然语言处理中的一项重要任务,通过从纯文本中抽取结构化的实体关系事实,可用于自动构建和扩充知识图谱。目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。
以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采样得到的),其中涉及这些关系事实的命名实体用蓝色着色,其它命名实体用下划线标出。为了识别关系事实(Riddarhuset,country,Sweden),必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实,然后从句子1确定Stockholm是Sweden的首都,以及Sweden是一个国家,最后从这些事实推断出Riddarhuset的主权国家是瑞典。
目前通用领域常用的文档级关系抽取数据集有DocRED,医学领域有CDR,CHR和GDA等。
二、相关工作
1、Attention Guided Graph Convolutional Networks for Relation Extraction
该论文发表于ACL2019,是较早使用图注意力网络来做关系抽取的。作者认为使用剪枝GCN的策略并不能获得最优的图结构,剪枝过程中有可能把有用的信息删除,也有可能保留没用的噪音。因此提出软剪枝策略,即以词为节点构建一个全连接图,使用自注意力机制的权值来表示边值,让模型自动选取有用的信息。模型主要有两个特点:(1)多层图网络间使用残差连接,作者认为残差连接可以促进大图中的信息传播,使模型能够更有效地学习到长距离依赖。(2)使用多头注意力机制,更有效地学习到相关信息而且过滤噪音。在文档级关系抽取上,作者并没有做额外的处理,只是把句子拼接在一起看作是单句子的关系抽取任务,但是依然在跨句子多元关系抽取任务上取得了非常好的效果。