如何配置Apache Tika和Apache Solr来索引和搜索pdf文件目录



我如何使Apache Tika索引PDF和包括子目录在内的文本文件的目录,并将其提交给Apache Solr,以便我可以使用搜索引擎来搜索该目录的内容?

任何建议都值得赞赏,在Windows或Linux上都无关紧要。我没能做到这一点,因为这两个项目的文档大多是为开发人员准备的,这很好,但尽管如此,我不能让他们这样做,因为文档很模糊,对于非java开发人员来说不够清晰。

非常简单:我如何使用Apache Lucene系列项目构建搜索引擎,这些项目可以索引并提供对/home/material或c:\material或/cygdrive/c/material 的搜索

提前感谢

您熟悉什么编程语言?

作为一个Python爱好者,我会熟悉urllib2,一个HTTP客户端库和os模块,它可以处理文件系统(列出目录中的文件,打开一个文件指针,在Solr的文件中进行POSTing)。同样相关的还有set数据类型,它可用于比较FS和Solr索引中的文档。

所以,

  1. 学习将富文档POST到Solr(使用Solr库或HTTP客户端库)
  2. 使逻辑从Solr和目录中检索所有文档名称
  3. 将所有丢失/更改的文档上传到Solr

Solr提供了ExtractingRequestHandler,它有助于为丰富的文档编制索引
页面上列出的示例使用curl向Solr提供数据
一个简单的脚本可以遍历文件夹和子文件夹并执行curl命令,它可以在所有文档上创建索引
如果您使用Solr的任何客户端,如Solrj、rsolr,您可以轻松地遍历目录并执行http URL来索引文档。

相关内容

  • 没有找到相关文章

最新更新