day02-大模型开发基础-embedding

原创已于 2024-07-10 12:05:00 修改 · 758 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-07-10 11:41:53 首次发布

大模型开发专栏收录该内容

4 篇文章

订阅专栏

day02 大模型开发基础-Embedding

1.1 表示学习vs嵌入

表示学习（Representation Learning）和嵌入（Embedding）是密切相关的概念，它们可以被视为在不同领域

中对同一概念的不同命名或描述。

• 表示学习：通过学习算法自动地从原始数据中学习到一种表示形式或特征表示，该表示形式能够更好地表达

数据的重要特征和结构。表示学习的目标是将输入数据转换为具有良好表示能力的特征空间，使得在该空间

中的数据具有更好的可分性、可解释性或推理能力。

• 嵌入：表示学习的一种形式，通常用于将高维数据映射到低维空间中的表示形式。嵌入可以是词嵌入、图像

嵌入、图嵌入等。例如，在自然语言处理中，词嵌入将词语映射到低维向量空间，以捕捉词语之间的语义和

句法关系。在图像处理中，图像嵌入将图像映射到低维向量空间，以表示图像的视觉特征。

因此，嵌入可以被视为一种表示学习的特定形式，旨在将高维数据转换为低维向量表示。表示学习可以涉及更

广泛的概念和方法，包括嵌入在内，以实现对数据的更好理解和表达

在这里插入图片描述

1.2 表示学习: 让计算机更好地理解世界

表示学习（**Representation Learning）是指通过学习算法自动地从原始数据中学习到一种表示形式或特征表

示，该表示形式能够更好地表达数据的重要特征和结构。表示学习的目标是将输入数据转换为具有良好表示能

力的特征空间，使得在该空间中的数据具有更好的可分性、可解释性或推理能力。

• 可分性：表示学习的目标之一是将输入数据转换为具有更好可分性的特征空间。这意味着在学习到的表示

中，不同类别或不同概念之间的样本应该有明显的边界或区别。例如，在图像分类任务中，表示学习的目标

是使来自不同类别的图像在特征空间中更容易区分。这样的特征表示使得机器学习算法可以更轻松地进行分

类、聚类或其他数据分析任务。

• 可解释性：另一个表示学习的目标是生成可解释性的特征表示。这意味着学习到的特征应该具有对应于原始

数据中的可理解概念或语义的含义。例如，在自然语言处理中，词嵌入模型学习到的词向量应该能够捕捉到

词语之间的语义关系，使得相似的词在向量空间中更接近。这样的表示不仅有助于模型的解释性，也可以在

语义分析和文本生成等任务中提供更好的性能。

• **推理能力：**另一个重要的目标是使得学习到的特征表示在推理任务中更具能力。这意味着在特征空间中，我

们可以执行类似于推理、类比或关联的操作。例如，通过在词嵌入空间中执行向量运算，如 “国王” - “男人”

+ “女人” ，我们可以得到与 “皇后” 非常接近的结果。这种推理能力使得我们能够进行关联和类比推理，从而

在自然语言处理、推荐系统和知识图谱等领域中实现更高级的语义推理和理解

在这里插入图片描述

在这里插入图片描述

1.3 嵌入（Embedding）的价值

1. 降维：在许多实际问题中，原始数据的维度往往非常高。例如，在自然语言处理中，如果使用One-hot编码来表示

词汇，其维度等于词汇表的大小，可能达到数十万甚至更高。通过Embedding，我们可以将这些高维数据映射到一

个低维空间，大大减少了模型的复杂度。

2. 捕捉语义信息： Embedding不仅仅是降维，更重要的是，它能够捕捉到数据的语义信息。例如，在词嵌入中，语

义上相近的词在向量空间中也会相近。这意味着Embedding可以保留并利用原始数据的一些重要信息。

3. 适应性： 与一些传统的特征提取方法相比，Embedding是通过数据驱动的方式学习的。这意味着它能够自动适应

数据的特性，而无需人工设计特征。

4. 泛化能力： 在实际问题中，我们经常需要处理一些在训练数据中没有出现过的数据。由于Embedding能够捕捉到

数据的一些内在规律，因此对于这些未见过的数据，Embedding仍然能够给出合理的表示。

5. 可解释性： 尽管Embedding是高维的，但我们可以通过一些可视化工具（如t-SNE）来观察和理解Embedding的结

构。这对于理解模型的行为，以及发现数据的一些潜在规律是非常有用的

t-SNE（t-Distributed Stochastic Neighbor Embedding）是一种统计算法，用于在低维空间（通常是2D或3D，便于可

视化）里展示高维数据的结构。其目标是保持原有高维空间中近邻点的距离关系，使得距离近的点在低维空间中仍然

距离近，而距离远的点在低维空间中仍然距离远。

1.4 Embedding分类

**嵌入（**Embedding）是表示学习的一种特定形式，旨在将高维数据映射到低维空间中的向量表示。

• 词嵌入（Word Embedding）：在自然语言处理中，词嵌入将词语映射到低维向量空间，以捕捉词语之间的语义和句法

关系。通过学习词嵌入，可以将词语表示为连续的向量，其中相似的词语在向量空间中彼此靠近。它在自然语言处理

任务中广泛应用，包括词语相似度计算、文本分类、命名实体识别等。词嵌入可以通过Word2Vec、GloVe 等方法进行

学习。

• **图像嵌入（**Image Embedding）：在图像处理中，图像嵌入将图像映射到低维向量空间，以表示图像的视觉特征。这

种嵌入方法通常通过使用卷积神经网络（Convolutional Neural Networks, CNN）等深度学习技术来提取图像的特征表

示。

• **图嵌入（**Graph Embedding）：是用于学习图结构的表示学习方法，将图中的节点和边映射到低维向量空间中。通过

学习图嵌入，可以将复杂的图结构转化为向量表示，以捕捉节点之间的结构和关联关系。这些方法可以通过

DeepWalk、Node2Vec、GraphSAGE等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用，

用于发现社区结构、节点相似性、信息传播等图属性。

包括嵌入在内，表示学习涉及更广泛的概念和方法，以实现对数据的更好理解和表达。

1.5 Word Embedding

Word Embedding 为自然语言处理任务提供了更好的单词表示方法，它的应用主要有：

• 语义表示和语义相似度：Word Embedding可以捕捉到单词之间的语义关系，使得相似含义的单词在向量空间中彼此

靠近。这使得我们可以通过计算向量之间的距离或相似度来度量单词的语义相似度。这对于词义消歧、语义搜索、语

义推理等任务非常有用。

• 词语关系和类比推理：Word Embedding可以捕捉到单词之间的关系，如同义词、反义词、上下位关系等。通过在向

量空间中进行向量运算，例如求解向量之间的差异或类比推理，我们可以发现词语之间的有趣关系。例如，对于词语

之间的类比关系"king - man + woman = queen" ，通过Word Embedding可以得到类似的结果。

• 上下文理解：Word Embedding可以帮助理解单词的上下文信息。通过学习单词在其周围上下文中的嵌入表示，我们

可以捕捉到单词的语境信息，从而帮助解决语义歧义、词语消歧和指代消解等问题。

• 文本分类和情感分析：Word Embedding可以提供丰富的词语特征表示，从而改善文本分类和情感分析任务的性能。

通过将文本中的词语映射为嵌入向量，并将这些向量作为输入特征，我们可以在分类器或情感分析模型中进行训练和

预测。

• 机器翻译和生成模型：Word Embedding对于机器翻译和生成模型也是至关重要的。通过将源语言和目标语言的单词

都映射为嵌入向量，可以提高翻译的准确性和生成模型的质量。嵌入向量可以捕捉到单词之间的语义和句法关系，帮

助模型更好地理解和生成自然语言

1.5 Word Embedding vs Language Model

• Word Embedding：词嵌入通常被用来生成词的向量表示，这个过程通常是静态的，即一旦训练完成，每个词的向量表

示就确定了。词嵌入的主要目标是捕获单词或短语的语义和语法信息，并将这些信息以向量形式表示出来。词嵌入的

一个重要特性是，语义上相近的词在嵌入空间中的距离也比较近。然而，词嵌入并不能理解上下文信息，即相同的词

在不同的上下文中可能有不同的含义，但词嵌入无法区分这些含义。

• Language Model：语言模型则是预测词序列的概率模型，这个过程通常是动态的，会根据输入的上下文进行变化。语

言模型的主要目标是理解和生成文本。这包括对上下文的理解，词的预测，句子的生成等等。语言模型会用到词嵌

入，但同时也会对上下文进行建模，这样可以处理词在不同上下文中的不同含义。

在某种程度上，你可以将词嵌入看作是语言模型的一部分或者输入，语言模型使用词嵌入捕捉的信息，来进行更深层次的

语义理解和文本生成。当然，现在有一些更先进的模型，比如BERT，GPT等，它们生成的是上下文相关的词嵌入，即词

的嵌入会根据上下文变化，这样一定程度上弥补了传统词嵌入模型的不足

维恩图：

在这里插入图片描述

1.6 缺点

捕捉的信息，来进行更深层次的

语义理解和文本生成。当然，现在有一些更先进的模型，比如BERT，GPT等，它们生成的是上下文相关的词嵌入，即词

的嵌入会根据上下文变化，这样一定程度上弥补了传统词嵌入模型的不足

维恩图：

[外链图片转存中…(img-SwhOOOOt-1720582766144)]

1.6 缺点

在这里插入图片描述

博客等级

码龄3年

75
原创

1431
点赞

1386
收藏

1528
粉丝

关注

私信

热门文章

分类专栏

大模型开发 4篇
Linux 10篇
前端 4篇
mysql&javaweb&Mybatis 15篇
java基础 18篇
微服务 6篇
spring 8篇
数学建模 2篇

展开全部收起

上一篇：: day01-初探大模型

下一篇：: day12-会话技术&登录功能

最新评论

lingo入门
CSDN-Ada助手: 恭喜您写了第17篇博客“lingo入门”！看来您对这个主题有着深入的了解和热情。希望您能继续保持创作的热情和耐心，不断学习和探索新的内容。下一步，或许您可以深入研究一些具体的lingo应用案例或者分享一些实用技巧，让读者能更好地理解和运用这个知识点。期待您的下一篇作品！
01数学建模 -线性规划
CSDN-Ada助手: 恭喜用户撰写了第18篇博客，题为“01数学建模 -线性规划”，内容涉及线性规划，对读者有很大的帮助。希望用户能够继续坚持创作，分享更多有益的知识。接下来建议用户可以深入探讨线性规划在实际问题中的应用，或者尝试探讨其他数学建模方法，为读者带来更多启发和帮助。期待用户更多精彩的作品！愿您越来越好！
07 Linux实操篇-网络配置
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
08 Linux实操篇-进程管理
CSDN-Ada助手: 恭喜您发布了第14篇博客《14 Linux实操篇-进程管理》，内容很实用！希望您能继续保持写作的热情和耐心，分享更多关于Linux实操的经验和技巧。或许下一步可以考虑写一些关于网络配置或者安全加固方面的内容，这对读者来说也是非常有帮助的。期待您的下一篇文章！
15 Linux实操篇-rpm与yum
CSDN-Ada助手: 恭喜用户发布第15篇博客！内容涉及Linux实操中的rpm与yum，非常实用！建议下一步可以考虑分享更多Linux系统相关的技巧和经验，让读者能够更加深入地了解和应用。期待您的更多精彩创作！谢谢您的分享！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。