solr-cell搜索适用于某些PDF，而不适用于其他PDF

我已经搜索了两天，但一直找不到答案。

我已经从 tomcat 6 上运行的 Ubuntu 服务器上的存储库安装了 solr。我添加了solr细胞罐和tika库。

我可以运行一个 curl 命令，该命令适用于某些 pdf 文件并将它们很好地索引，但它不适用于其他文件。起初我以为有些文件已损坏，但事实似乎并非如此。在我看来，那些工作和那些不工作之间没有任何重大区别。

我得到的错误是 500 错误 - 请参阅此处的示例

我提出的 curl 请求是：

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"

这确实适用于某些 PDF，但不适用于其他 PDF。

我相信我已经安装了 solr 1.4.0。

任何帮助将不胜感激 - 谢谢

--编辑--我正在使用 Ubuntu 10.04.1 如果有帮助的话。

NullPointerException可能是一个错误。将其报告给PDFBox和/或Tika。

好的，solr 的夜间快照使用 PDFBox 1.3.1，而不是当前稳定版使用 0.7.*，这是一个相当数量的修订更改。

我可以使用这个快照版本的 solr 索引所有 pdf。在我看来，这将是在下一个稳定版本中修复。

相关内容

最新更新

热门标签：