实体对齐模型训练知识储备
- 1、对比学习
- 2、跨语言模型
-
- 2.1、为什么要预训练
- 2.2、PTMs两大范式
- 2.3、PTMs两大任务
- 2.4、跨语言模型
-
- 2.4.1、XLM(Cross-lingual Language Model Pretraining )
- 2.4.2、XLM-R(Unsupervised Cross-lingual Representation Learning at Scale)
- 2.4.3、mBART(Multilingual Denoising Pre-training for Neural Machine Translation )
- 2.4.4、XLM-E(Cross-lingual Language Model Pre-training via ELECTRA)
- 2.4.5、LaBSE(Language-agnostic BERT Sentence Embedding)
- 3、图注意力网络
1、对比学习
参考文献:
对比学习(Contrastive Learning)综述
生成式学习以自编码器(例如GAN,VAE等等)这类方法为代表,由数据生成数据,使之在整体或者高级语义上与训练数据相近。
对比式学习着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。
与生成式学习比较,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。
2、跨语言模型
参考文献:
NLP算法面试必备!PTMs:NLP预训练模型的全面总结
文献阅读笔记:Cross-lingual Language Model Pretraining
跨语言模型总结
2.1、为什么要预训练
深度学习时代,为了充分训练深层模型参数并防止过拟合,通常需要更多标注数据喂养。在NLP领域,标注数据更是一个昂贵资源。PTMs从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看,预训练模型PTMs的优势包括:
- 在庞大的无标注数据上进行预训练可以获取更通用的语言表示,并有利于下游任务;
- 为模型提供了一个更好的初始化参数,在目标任务上具备更好的泛化性能、并加速收敛;
- 是一种有效的正则化手段,避免在小数据集上过拟合(一个随机初始化的深层模型容易对小数据集过拟合);
2.2、PTMs两大范式
词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,这也是分布式表示:向量的每一维度都没有实际意义,而整体代表一个具体概念。
分布式表示相较于传统的独热编码(one-hot)表示具备更强的表示能力,而独热编码存在维度灾难和语义鸿沟(不能进行相似度计算)等问题。传统的分布式表示方法,如矩阵分解(SVD/LSA)、LDA等均是根据全局语料进行训练,是机器学习时代的产物。
2.2.1、浅层词嵌入
浅层词嵌入,这一类PTMs范式是我们通常所说的“词向量”,其主要特点是学习到的是上下文独立的静态词嵌入,其主要代表为NNLM、word2vec(CBOW、Skip-Gram)、Glove等。这一类词嵌入通常采取浅层网络进行训练,而应用于下游任务时,整个模型的其余部分仍需要从头开始学习。因此,对于这一范式的PTMs(Pre-trained Models)没有必要采取深层神经网络进行训练,采取浅层网络加速训练也可以产生好的词嵌入。
浅层词嵌入的主要缺陷为:
词嵌入与上下文无关,每个单词的嵌入向量始终是相同,因此不能解决一词多义的问题。
通常会出现OOV问题,为了解决这个问题,相关文献提出了字符级表示或sub-word表示,如CharCNN、FastText和 Byte-Pair Encoding 。