Solr.NET快速入门(十)【二进制文档上传】【完】

最新推荐文章于 2024-08-13 08:56:54 发布

.NET跨平台

最新推荐文章于 2024-08-13 08:56:54 发布

阅读量1.6k

点赞数

分类专栏：分布式开发技术全文搜索引擎之Solr .net平台下分布式开发技术文章标签： solr 二进制文档索引数据

分布式开发技术同时被 3 个专栏收录

81 篇文章

订阅专栏

.net平台下分布式开发技术

50 篇文章

订阅专栏

全文搜索引擎之Solr

15 篇文章

订阅专栏

本文介绍如何使用SolrNet从二进制文档（如PDF）中提取文本而不进行索引。通过示例代码展示了如何配置参数来实现这一功能，并提供了进一步阅读的资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

二进制文档上传

SolrNet支持Solr“提取”功能（a.k.a. Solr“Cell”）从二进制文档格式（如Word，PDF等）索引数据。

这里有一个简单的示例，显示如何从PDF文件中提取文本，而无需对其进行索引：

ISolrOperations<Something> solr = ...
using (var file = File.OpenRead(@"test.pdf")) {
    var response = solr.Extract(new ExtractParameters(file, "some_document_id") {
        ExtractOnly = true,
        ExtractFormat = ExtractFormat.Text,
    });
    Console.WriteLine(response.Content);
}

ExtractOnly = true告诉Solr只执行文本提取，但不索引上传的文档。如果ExtractOnly = false，您可以使用Fields属性添加更多字段。其他选项可以通过ExtractParameters类的属性设置。通常建议为内容提供StreamType，因为自动检测可能会失败。

有关ExtractParameters中每个选项的更多详细信息，请参阅Solr wiki和Solr参考指南。