使用Apache Lucene进行搜索优化



我正在进行一个项目,使用ApacheLucene在twitter数据上实现大规模索引以优化搜索。Lucene提供反向索引以过滤出符合指定选择标准的块。

要实现这个项目,我应该如何进行?我应该安装Cloudera vm并继续吗?或者我应该在Ubuntu平台上从Apache部署Hadoop吗?

我之所以这么问,是因为我无法确认Cloudera是否已经使用Lucene来优化搜索。

请告知。

Cloudera为您提供用于自动安装和集群管理的debian包和软件。就是这样。Hadoop堆栈中没有任何关于搜索(以及优化)的内容。所以你可以为你的项目选择香草或cloudera。

对于搜索,您可以使用Elasticsearch。它与hadoop集成,并在内部使用Lucene

最新更新