需要有关使用Map/Reduce创建solr索引的建议



我对Map/Reduce世界很陌生,并试图评估最佳选择,以确定我是否可以利用它来在Solr中创建索引。目前,我正在使用常规爬网来获取数据并直接在 Solr 中索引。这是没有任何问题的工作。

但展望未来,我们需要访问驻留在 Amazon S3 中的大量数据。目前大约有500万数据存储在S3中,需要索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR( 直接从 S3 访问内容,然后在 Solr 中创建索引。数据结构很简单,url(唯一(是 S3 键,值是 XML 文件。url 将用作 Solr 中的文档 ID,而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法?任务是从 S3 访问数据,从 XML 中提取某些元素,进行一些处理,然后调用 Solr API 来生成索引。在为数据编制索引之前,处理部分需要很少的类,可能是命令模式链。这是可以实现的吗?我需要一个减速器还是可以使用映射器来完成该过程?如果需要减速器,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

您可以尝试使用MapReduceIndexer Tool。您可以从apache-sole下载它。它是 contrib 模块的一部分。

最新更新