在Hadoop上集成SolR



我已经安装了solr并通过curl命令进行了索引,并执行了搜索活动。现在我想在 hadoop 上部署它,并在文件推送到存储目录时自动索引。我对Hadoop完全陌生,不知道。那么谁能简要介绍一下?多谢。

如果您不太了解底层技术,最好看看专门将多个软件包放在一起并围绕其特定组合提供培训材料的供应商产品。

具体来说,我建议看看Cloudera的CDH之类的东西。它包括Hadoop,Solr和许多其他东西,如Hue。

有一些方法可以让它们在文件落入目录时自动索引。

  1. 使用 curl - 编写 shell 脚本并将其作为 cron 运行。

  2. 使用 Oozie - 创建 shell 操作并安排它。

  3. 我希望莫普林/水槽溶胶水槽可能起作用。

注意:如果您找到有关3的解决方案,请分享。

干杯坎南

你可以看到Solr参考指南(在HDFS上运行Solr)https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS

Solr支持将其索引和事务日志文件写入和读取到HDFS分布式文件系统

要使用HDFS而不是本地文件系统,您必须使用Hadoop 2.x

你需要指示Solr使用HdfsDirectoryFactory。还有几个其他参数需要定义。可以通过以下三种方式之一设置这些设置:

1.将 JVM 参数传递给 bin/solr 脚本。每次使用 bin/solr 启动 Solr 时都需要传递这些内容。

2.修改 solr.in.sh(或Windows上的solr.in.cmd)以在使用bin/solr时自动传递JVM参数,而无需手动设置它们。

3.在 solrconfig.xml 中定义属性。这些配置更改需要为每个集合重复,因此如果您只希望将某些集合存储在 HDFS 中,这是一个不错的选择。

最新更新