将 Solr 与 PDF 文件一起使用

我想将Solr与PDF文件一起使用，但我不知道如何配置solrconfig.xml和schema.xml。我应该在这些文件中写什么？例如，目的是使用同义词或拼写检查器进行全文搜索。(我在Windows上使用Solr，将来我将使用API SolrNet(。谢谢！

您可以使用 Tika 从 PDF 文件中提取文本。

配置Tika后，您可以向Solr发出HTTP POST，指定要索引的PDF文件：

curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"

如果您需要将 Tika 生成的字段(title、author、content(映射到 Solr 索引中的不同字段，您可以使用fmap功能：

fmap.content=text会将Tika提取的content字段映射到Solr的text字段。

相关内容