Nutch+Solr:如何索引嵌入HTML中的PDF



我正在使用Nutch+Solr为我的网站建立内部搜索栏索引。该网站有许多嵌入PDF的HTML页面,我希望PDF中的文本显示在搜索中。在HTML中对文本进行索引很好,我可以单独对PDF进行索引,但我想要一个单独的Solr文档,其中包含HTML中的文本及其嵌入的PDF。有办法做到这一点吗?

PDF就是这样嵌入的:

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道这个解决方案是否与Tika的EmbeddedDocumentExtractor有关。然而,我不知道如何在Nutch或Solr中更改Tika的配置。

Tika将PDF文件视为链接,EmbeddedDocumentExtractor用于通过数据URI排列的内容。嵌入PDF需要修改Tika的HtmlHandler或Nutch的解析Tika插件。请注意,Nutch尚未处理<object>元素中的链接,这些链接将在Nutch-2880中寻址。

最新更新