我有两个式csv和文本中的数据。
1)CSV文件包含元数据。即modifyScore,size,fileName等
2)实际文本在具有a.txt,b.txt等文件的文本文件夹中。
请通过DIH或另一种可能的方式将这些数据索引在SOLR中?
根据您的用例,我将继续使用自定义索引应用程序。显然,您想构建您的solr文档,从CSV和其他一些字段(内容)获取一些字段。
例如,使用Java,这将非常简单:您可以使用solrj,从CSV和TXT中获取数据,构建每个Solr文档,然后进行索引。
如果我可以将数据移动到DB中(即使2个表也不错,因为DIH支持加入)。开箱即用,您可能有兴趣使用脚本[1]变压器。将其与您的不同数据源结合使用。您需要稍作播放一点,因为它不是解决问题的直接解决方案。
[1] https://cwiki.apache.org/confluence/display/solr/uploading Structured data store store data withe the dataa import import handhandler #udhandler #uadploadingstructundingstructureddatastorteddatastostawiththateataimporporporportorporterporthandller-pran div class =" ans">
只是提到更多可能性:
-
使用dih将TXT文件索引到CollectionA,然后使用/更新处理程序将CSV直接摄入CollectionB,然后使用流式表达式将两者合并到您想要保留的第三个集合中。主要优势是一切都在Solr中,没有外部代码。
-
使用DIH到索引文件(或//更新到索引CSV)并编写一个更新请求处理器,该请求处理器将在索引之前拦截文档,从其他来源查找信息,并将其添加到文档中。
是的,信息和代码可能有可能从多个异质数据源索引数据,请了解为什么tikaentityprocesor不会在以下数据config文件中索引文本字段?