文档级关系抽取小结及论文阅读：Document-Level Relation Extraction with Reconstruction-CSDN博客

本文链接：https://blog.csdn.net/Ming_LQ/article/details/118484760

本文总结了文档级关系抽取的重要性及其挑战，并介绍了三种代表性方法：Attention Guided Graph Convolutional Networks、Document-level Graph Convolutional Neural Network和Edge-oriented Graphs，探讨了它们在处理跨句子依赖和构建图结构上的创新。最后，提出了路径重建方法以增强模型对关系的关注，实验证明其有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Document-Level Relation Extraction with Reconstruction

一、背景介绍
二、相关工作
三、本文方法

一、背景介绍

关系抽取是自然语言处理中的一项重要任务，通过从纯文本中抽取结构化的实体关系事实，可用于自动构建和扩充知识图谱。目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系，在实践中受到不可避免的限制：在真实场景中，大量的关系事实是以多个句子表达的。文档中的多个实体之间，往往存在复杂的相互关系。根据从维基百科采样的人工标注数据的统计表明，至少40％的实体关系事实只能从多个句子联合获取。因此，有必要将关系抽取从句子级别推进到文档级别。

以下图为例，就包括了文章中的两个关系事实（这是从文档标注的19个关系事实中采样得到的），其中涉及这些关系事实的命名实体用蓝色着色，其它命名实体用下划线标出。为了识别关系事实（Riddarhuset，country，Sweden），必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实，然后从句子1确定Stockholm是Sweden的首都，以及Sweden是一个国家，最后从这些事实推断出Riddarhuset的主权国家是瑞典。在这里插入图片描述
目前通用领域常用的文档级关系抽取数据集有DocRED，医学领域有CDR，CHR和GDA等。

二、相关工作

1、Attention Guided Graph Convolutional Networks for Relation Extraction

该论文发表于ACL2019，是较早使用图注意力网络来做关系抽取的。作者认为使用剪枝GCN的策略并不能获得最优的图结构，剪枝过程中有可能把有用的信息删除，也有可能保留没用的噪音。因此提出软剪枝策略，即以词为节点构建一个全连接图，使用自注意力机制的权值来表示边值，让模型自动选取有用的信息。模型主要有两个特点：（1）多层图网络间使用残差连接，作者认为残差连接可以促进大图中的信息传播，使模型能够更有效地学习到长距离依赖。（2）使用多头注意力机制，更有效地学习到相关信息而且过滤噪音。在文档级关系抽取上，作者并没有做额外的处理，只是把句子拼接在一起看作是单句子的关系抽取任务，但是依然在跨句子多元关系抽取任务上取得了非常好的效果。