实体对齐模型训练知识储备

最新推荐文章于 2025-07-25 19:58:35 发布

一拳Marx

最新推荐文章于 2025-07-25 19:58:35 发布

阅读量446

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/liuyiming2019/article/details/127677144

本文深入探讨实体对齐模型的训练，重点关注对比学习和跨语言模型。对比学习通过区分同类和非同类实例来学习共同特征。在跨语言模型中，讨论了预训练的重要性以及PTMs的两大范式：浅层词嵌入和预训练编码器。重点介绍了XLM、XLM-R、mBART、LaBSE等模型。此外，还提到了图注意力网络在实体对齐中的应用及其评价指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实体对齐模型训练知识储备

1、对比学习
2、跨语言模型
3、图注意力网络
- 3.1、评价指标![请添加图片描述](https://i-blog.csdnimg.cn/blog_migrate/91951dfff63d9cebe07d0adc94162f3d.png)

1、对比学习

参考文献：
对比学习（Contrastive Learning）综述
请添加图片描述
生成式学习以自编码器(例如GAN，VAE等等)这类方法为代表，由数据生成数据，使之在整体或者高级语义上与训练数据相近。
对比式学习着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处。
与生成式学习比较，对比式学习不需要关注实例上繁琐的细节，只需要在抽象语义级别的特征空间上学会对数据的区分即可，因此模型以及其优化变得更加简单，且泛化能力更强。请添加图片描述

2、跨语言模型

参考文献：
NLP算法面试必备！PTMs：NLP预训练模型的全面总结
 文献阅读笔记：Cross-lingual Language Model Pretraining
跨语言模型总结

2.1、为什么要预训练

深度学习时代，为了充分训练深层模型参数并防止过拟合，通常需要更多标注数据喂养。在NLP领域，标注数据更是一个昂贵资源。PTMs从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看，预训练模型PTMs的优势包括：

在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务；
为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛；
是一种有效的正则化手段，避免在小数据集上过拟合（一个随机初始化的深层模型容易对小数据集过拟合）；

2.2、PTMs两大范式

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，这也是分布式表示：向量的每一维度都没有实际意义，而整体代表一个具体概念。
分布式表示相较于传统的独热编码（one-hot）表示具备更强的表示能力，而独热编码存在维度灾难和语义鸿沟（不能进行相似度计算）等问题。传统的分布式表示方法，如矩阵分解（SVD/LSA）、LDA等均是根据全局语料进行训练，是机器学习时代的产物。

2.2.1、浅层词嵌入

浅层词嵌入，这一类PTMs范式是我们通常所说的“词向量”，其主要特点是学习到的是上下文独立的静态词嵌入，其主要代表为NNLM、word2vec（CBOW、Skip-Gram）、Glove等。这一类词嵌入通常采取浅层网络进行训练，而应用于下游任务时，整个模型的其余部分仍需要从头开始学习。因此，对于这一范式的PTMs（Pre-trained Models）没有必要采取深层神经网络进行训练，采取浅层网络加速训练也可以产生好的词嵌入。
浅层词嵌入的主要缺陷为：
词嵌入与上下文无关，每个单词的嵌入向量始终是相同，因此不能解决一词多义的问题。
通常会出现OOV问题，为了解决这个问题，相关文献提出了字符级表示或sub-word表示，如CharCNN、FastText和 Byte-Pair Encoding 。