DPR和REALM论文笔记

最新推荐文章于 2025-02-20 15:53:37 发布

原创最新推荐文章于 2025-02-20 15:53:37 发布 · 712 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #机器学习 #深度学习

nlp 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了DPR和REALM两种模型。DPR采用双塔结构进行问题和段落匹配，通过不同策略选择负样本增强训练效果。REALM则结合了知识检索与增强编码器，实现对知识的有效利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DPR(2020 EMNLP)

该论文的模型主要是一个双塔结构如下所示：

整个模型的训练数据D包含m个例子，其中每个例子由一个问题 $q_i$ 、一个相关段落 $p_i^+$ 、n个不相关段落 $,pi,n−p_{i,1}^-,\cdots,p_{i,n}^-$
$\mathcal{D}=\left\{\left\langle q_i, p_i^{+}, p_{i, 1}^{-}, \cdots, p_{i, n}^{-}\right\rangle\right\}_{i=1}^m$
loss函数：

负样本的选择方式：

Random：从语料库中随机抽取一个passage，基本上都是跟当前question无关的；
BM25：使用基于BM25的文本检索方式在语料库中检索跟question最相关的文本, 但要求不包含答案;
Gold: 在训练样本中, 其他样本中的positive passage。即对于训练样本 $i$ 和 $j, q_i$ 对应的正样本是 $p_i^{+}$ , 而这个 $p_i^{+}$ 可以作为 $q_j$ 的负样本。

In-batch negatives

一个批次的大小为B，则Q和P就是一个大小 $B×dB\times d$ 的矩阵， $S=QP^T$ 则是一个大小为 $B×BB\times B$ 的矩阵，其中第i行表示 $q_i$ 和B个段落的相似度，其中 $p_i$ 是 $q_i$ 的相关段落，因此剩下的 $B - 1$ 个段落就可以当做问题 $q_i$ 的负样本段落。

REALM(2020 ICML)

knowledge Retriever:
$\mid x)=\frac{\exp f(x, z)}{\sum_{z^{\prime}} \exp f\left(x, z^{\prime}\right)}$

$z)=\text { Embed }_{\text {input }}(x)^{\top} \text { Embed }_{\text {doc }}(z)$

然后经过一个线性层降维(作者在google ai发布的blog里面显示维度降到了128)：

Knowledge-Augmented Encoder:
$\begin{aligned} p(y \mid z, x) & \propto \sum_{s \in S(z, y)} \exp \left(\operatorname{MLP}\left(\left[h_{\mathrm{START}(\mathrm{s})} ; h_{\mathrm{END}(\mathrm{s})}\right]\right)\right) \\ h_{\mathrm{START}(\mathbf{s})} &=\operatorname{BERT}_{\mathrm{START}(\mathbf{s})}\left(\text { join }_{\mathrm{BERT}}\left(x, z_{\mathrm{body}}\right)\right) \\ h_{\mathrm{END}(\mathrm{s})} &=\operatorname{BERT}_{\mathrm{END}(\mathrm{s})}\left(\text { join }_{\mathrm{BERT}}\left(x, z_{\mathrm{body}}\right)\right) \end{aligned}$

Inverse Cloze Task(ICT)
$P_{\mathrm{ICT}}(b \mid q)=\frac{\exp \left(S_{\text {retr }}(b, q)\right)}{\sum_{b^{\prime} \in \text { ЄATCH }} \exp \left(S_{\text {retr }}\left(b^{\prime}, q\right)\right)}$
公式(1)两边log求导的推导过程如下：