文章目录
前言
当我们利用检索增强生成(RAG)技术构建本地知识库时,Embedding模型就像是这个知识宝库的智能化导航系统,它能够帮助我们迅速且精准地定位到所需的信息。
对于刚刚涉足这一领域的初学者而言,可能会对Embedding模型的本质及其在本地知识库中的功能感到困惑。近期关于本地知识库的课程中,不少学习者也表达了相似的疑问。
接下来,我们将采用简单明了的语言,并结合实际案例,深入讨论这些问题,同时也会介绍如何整理本地的知识素材,以便让基于本地RAG的问题回答变得更加精确和全面。
一、Embedding 模型是什么
简单来讲,Embedding 就像是给数据穿上了一件“数字外衣”,把原本各种各样的数据(比如文本、图像、语音等)转化成一组数字,也就是向量来表示。
Embedding向量本质上是将语义信息映射到高维空间的数学坐标。以3D空间为例:
“猫” → [0.7, -0.3, 0.1]
“犬” → [0.68, -0.25, 0.15]
“发动机” → [-0.4, 0.8, 0.5]
维度解释:
- 低维(<100):语义区分能力弱,可能出现"苹果"(水果)与"苹果"(手机)混淆
- 高维(&