使用 LangChain 实现多向量检索：提高文档检索的效果和灵活性

最新推荐文章于 2025-08-09 17:19:50 发布

dfvcbipanjr

最新推荐文章于 2025-08-09 17:19:50 发布

阅读量305

点赞数 9

CC 4.0 BY-SA版权

文章标签： langchain 人工智能 python

本文链接：https://blog.csdn.net/dfvcbipanjr/article/details/143773491

# 引言

在现代信息检索系统中，存储与每个文档相关的多个向量是一个强大的功能。这种方式可以通过嵌入文档的多个片段并将其与父文档相关联，使得检索器能够根据片段返回更大的文档。LangChain 提供了一种实现多向量检索的基础类 `baseMultiVectorRetriever`，该类简化了此过程。本文将探讨如何使用多向量技术，从不同的角度构建文档向量，以及如何利用 `MultiVectorRetriever` 实现有效的文档检索。

# 主要内容

## 文档分块

将文档拆分为较小的块并嵌入这些块的向量，是实现多向量检索的一种常见方法。这种方式允许嵌入捕获尽可能接近的语义意义，同时让下游系统能够接收尽可能多的上下文信息。

## 文档摘要

为每个文档创建摘要，并将这些摘要作为子文档嵌入，是提高检索准确性的一种方法。通过摘要，可以更加准确地提炼出文档的主题，从而改进检索效果。

## 假设性问题

使用语言模型（LLM）生成文档可能会回答的假设性问题，并将这些问题的嵌入结果与文档关联，这样可以增强检索能力。

# 代码示例

下面的代码示例演示了如何使用 LangChain 构建和使用 `MultiVectorRetriever`：

```python
import uuid
from langchain.storage import InMemoryByteStore
from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharac