使用TF-IDF技术实现文本检索-CSDN博客

在信息检索领域，TF-IDF（Term Frequency-Inverse Document Frequency）是一个广泛使用的技术。它通过计算词频与逆文档频率来评估一个词对某个文档的相对重要性。在本文中，我们将探讨如何使用TF-IDF进行文本检索，并提供相关代码示例以帮助您在实际项目中实现这一技术。

技术背景介绍

TF-IDF是用于评估一个词在一个文本集合（例如一个文档集）中的重要性的方法之一。它结合了两个简单的统计量：词频（TF）和逆文档频率（IDF）。词频表示在某个给定文档中某个词出现的次数，而逆文档频率表示某个词跨多个文档出现的稀有程度。

核心原理解析

TF-IDF的计算公式为：

[ \text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t) ]

其中：

( \text{TF}(t, d) ) 是词 ( t ) 在文档 ( d ) 中出现的次数。
( \text{IDF}(t) = \log\left(\frac{N}{n_t}\right) )，其中 ( N ) 是文档集的总文档数，( n_t ) 是包含词 ( t ) 的文档数量。

代码实现演示

我们将使用scikit-learn库和langchain_community包来实现这一功能。

# 首先，确保安装了所需的库
%pip install --upgrade --quiet scikit-learn langchain_community

from langchain_community.retrievers import TFIDFRetriever
from langchain_core.documents import Document

# 创建文档集以进行检索
documents = [
    Document(page_content="foo"),
    Document(page_content="bar"),
    Document(page_content="world"),
    Document(page_content="hello"),
    Document(page_content="foo bar"),
]

# 使用TFIDFRetriever构建检索器
retriever = TFIDFRetriever.from_documents(documents)

# 使用检索器查找相关文档
query = "foo"
result = retriever.invoke(query)

# 输出结果
for doc in result:
    print(doc.page_content)

# 保存检索器以便后续使用
retriever.save_local("tfidf_retriever.pkl")

# 加载已保存的检索器
retriever_copy = TFIDFRetriever.load_local("tfidf_retriever.pkl")
result_copy = retriever_copy.invoke(query)

# 验证加载后的检索结果是否一致
assert result == result_copy