需要有关使用Map/Reduce创建solr索引的建议

我对Map/Reduce世界很陌生，并试图评估最佳选择，以确定我是否可以利用它来在Solr中创建索引。目前，我正在使用常规爬网来获取数据并直接在 Solr 中索引。这是没有任何问题的工作。

但展望未来，我们需要访问驻留在 Amazon S3 中的大量数据。目前大约有500万数据存储在S3中，需要索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR( 直接从 S3 访问内容，然后在 Solr 中创建索引。数据结构很简单，url(唯一(是 S3 键，值是 XML 文件。url 将用作 Solr 中的文档 ID，而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法？任务是从 S3 访问数据，从 XML 中提取某些元素，进行一些处理，然后调用 Solr API 来生成索引。在为数据编制索引之前，处理部分需要很少的类，可能是命令模式链。这是可以实现的吗？我需要一个减速器还是可以使用映射器来完成该过程？如果需要减速器，它的范围是什么？目前，我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

您可以尝试使用MapReduceIndexer Tool。您可以从apache-sole下载它。它是 contrib 模块的一部分。

相关内容

最新更新

热门标签：