Nutch+Solr:如何索引嵌入HTML中的PDF

我正在使用Nutch+Solr为我的网站建立内部搜索栏索引。该网站有许多嵌入PDF的HTML页面，我希望PDF中的文本显示在搜索中。在HTML中对文本进行索引很好，我可以单独对PDF进行索引，但我想要一个单独的Solr文档，其中包含HTML中的文本及其嵌入的PDF。有办法做到这一点吗？

PDF就是这样嵌入的：

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道这个解决方案是否与Tika的EmbeddedDocumentExtractor有关。然而，我不知道如何在Nutch或Solr中更改Tika的配置。

Tika将PDF文件视为链接，EmbeddedDocumentExtractor用于通过数据URI排列的内容。嵌入PDF需要修改Tika的HtmlHandler或Nutch的解析Tika插件。请注意，Nutch尚未处理<object>元素中的链接，这些链接将在Nutch-2880中寻址。

相关内容