文章目录
一、向量检索技术概述
1.1 向量检索的基本概念
向量检索(Vector Search)是一种基于向量相似度的信息检索技术,它将复杂的数据(如文本、图像、音频等)通过深度学习模型转换为高维向量表示,然后通过计算向量之间的距离或相似度来找到最相关的数据。
在传统数据库中,我们通常使用精确匹配或模糊匹配来查询数据,而向量检索则提供了一种基于语义相似度的全新查询方式。这种技术在推荐系统、图像搜索、自然语言处理等领域有着广泛的应用。
核心要素解析:
-
向量嵌入(Vector Embedding):将非结构化数据转换为固定长度的数值向量表示。例如:
- 文本:“数据库” → [0.23, -0.45, 0.78, …, 0.12] (维度通常为256/512/768等)
- 图片:一张猫的图片 → [0.56, 0.89, -0.23, …, 0.45]
-
相似度度量(Similarity Metric):用于计算向量之间相似程度的数学方法,常见的有:
- 欧氏距离(Euclidean Distance)
- 余弦相似度(Cosine Similarity)
- 内积(Inner Product)
-
近似最近邻搜索(Ap