Solr可以索引纯文本文件而不需要我通过Tika运行它们吗



我只处于Solr的研究阶段,但到目前为止,要对非结构化文本文件进行索引,我必须使用Tika将其转换为XML?这是真的吗?Lucene可以在不进行任何转换的情况下对任意文本进行标记和索引,我觉得这很奇怪,但Solr需要额外的步骤来转换为XML。我想也许我只是错过了什么。

我正在研究每天数百万个文件和数百GB的近实时全文搜索,所以额外的Tika转换很麻烦。

感谢您的回复@javanna我的问题最好是"不必以任何方式预先处理输入"。它们太多了,太快了,太大了,速度很重要@Oklein在研究你提到的DIH时,我偶然发现了这份文件:

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本上,我追求的答案是,使用ExtractingRequestHandler来处理纯文本文件,并动态添加额外的字段。现在我正在使用cURL,它可以使用GET参数添加字段,并将使用SolrJ进行等效操作。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

检查DIH 中的PlainTextEntityProcessor

相关内容

  • 没有找到相关文章

最新更新