文档级关系抽取小结及论文阅读:Document-Level Relation Extraction with Reconstruction

本文总结了文档级关系抽取的重要性及其挑战,并介绍了三种代表性方法:Attention Guided Graph Convolutional Networks、Document-level Graph Convolutional Neural Network和Edge-oriented Graphs,探讨了它们在处理跨句子依赖和构建图结构上的创新。最后,提出了路径重建方法以增强模型对关系的关注,实验证明其有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景介绍

关系抽取是自然语言处理中的一项重要任务,通过从纯文本中抽取结构化的实体关系事实,可用于自动构建和扩充知识图谱。目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。

以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采样得到的),其中涉及这些关系事实的命名实体用蓝色着色,其它命名实体用下划线标出。为了识别关系事实(Riddarhuset,country,Sweden),必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实,然后从句子1确定Stockholm是Sweden的首都,以及Sweden是一个国家,最后从这些事实推断出Riddarhuset的主权国家是瑞典。在这里插入图片描述
目前通用领域常用的文档级关系抽取数据集有DocRED,医学领域有CDR,CHR和GDA等。

二、相关工作

1、Attention Guided Graph Convolutional Networks for Relation Extraction

该论文发表于ACL2019,是较早使用图注意力网络来做关系抽取的。作者认为使用剪枝GCN的策略并不能获得最优的图结构,剪枝过程中有可能把有用的信息删除,也有可能保留没用的噪音。因此提出软剪枝策略,即以词为节点构建一个全连接图,使用自注意力机制的权值来表示边值,让模型自动选取有用的信息。模型主要有两个特点:(1)多层图网络间使用残差连接,作者认为残差连接可以促进大图中的信息传播,使模型能够更有效地学习到长距离依赖。(2)使用多头注意力机制,更有效地学习到相关信息而且过滤噪音。在文档级关系抽取上,作者并没有做额外的处理,只是把句子拼接在一起看作是单句子的关系抽取任务,但是依然在跨句子多元关系抽取任务上取得了非常好的效果。

2、Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Ne

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值