我们可以从两种不同格式的Solr单核数据中索引,即来自CSV和文本



我有两个式csv和文本中的数据。

1)CSV文件包含元数据。即modifyScore,size,fileName等

2)实际文本在具有a.txt,b.txt等文件的文本文件夹中。

请通过DIH或另一种可能的方式将这些数据索引在SOLR中?

根据您的用例,我将继续使用自定义索引应用程序。显然,您想构建您的solr文档,从CSV和其他一些字段(内容)获取一些字段。

例如,使用Java,这将非常简单:您可以使用solrj,从CSV和TXT中获取数据,构建每个Solr文档,然后进行索引。

如果我可以将数据移动到DB中(即使2个表也不错,因为DIH支持加入)。开箱即用,您可能有兴趣使用脚本[1]变压器。将其与您的不同数据源结合使用。您需要稍作播放一点,因为它不是解决问题的直接解决方案。

[1] https://cwiki.apache.org/confluence/display/solr/uploading Structured data store store data withe the dataa import import handhandler #udhandler #uadploadingstructundingstructureddatastorteddatastostawiththateataimporporporportorporterporthandller-pran div class =" ans">

只是提到更多可能性:

  1. 使用dih将TXT文件索引到CollectionA,然后使用/更新处理程序将CSV直接摄入CollectionB,然后使用流式表达式将两者合并到您想要保留的第三个集合中。主要优势是一切都在Solr中,没有外部代码。

  2. 使用DIH到索引文件(或//更新到索引CSV)并编写一个更新请求处理器,该请求处理器将在索引之前拦截文档,从其他来源查找信息,并将其添加到文档中。

是的,信息和代码可能有可能从多个异质数据源索引数据,请了解为什么tikaentityprocesor不会在以下数据config文件中索引文本字段?

最新更新