将 Solr 与 PDF 文件一起使用



我想将Solr与PDF文件一起使用,但我不知道如何配置solrconfig.xml和schema.xml。我应该在这些文件中写什么?例如,目的是使用同义词或拼写检查器进行全文搜索。(我在Windows上使用Solr,将来我将使用API SolrNet(。谢谢!

您可以使用 Tika 从 PDF 文件中提取文本。

  • Tika 从 PDF 文档中提取元数据,titleauthor等等。因此,您的架构应包含以下字段:titleauthor.

  • Tika 将 PDF 文档的正文提取到content字段中,因此 您的架构还应包含content字段。

配置Tika后,您可以向Solr发出HTTP POST,指定要索引的PDF文件:

curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"

如果您需要将 Tika 生成的字段(titleauthorcontent(映射到 Solr 索引中的不同字段,您可以使用fmap功能:

fmap.content=text会将Tika提取的content字段映射到Solr的text字段。

最新更新