mapreduce中是否有索引器的Java实现



我有一个URL列表,我想下载它们以创建webtrec格式的索引。我找到了一个名为MapReduce(Apache Hadoop)的有用框架,但我想知道Java中是否有我想做的实现。或者可能是一个接近的例子。

谢谢!

MapReduce模式是一种在多个步骤中进行可并行化、CPU密集型计算的模式。下载和爬网网页是一项 I/O 密集型操作。因此,您应该区分这两种操作。

因此,当性能确实如此重要时,您应该首先使用队列和异步 I/O 之类的东西来下载网站。在第二步中,您可以使用MapReduce来构建实际的索引。

Hadoop是一种可能性,但如果你不以大规模为目标,像Fork/Join和akka这样的框架也可能适用。

最新更新