使用弹性搜索创建多个索引/类型



我需要抓取两个网站,并将它们作为两个不同的索引或类型索引到弹性搜索中。我正在使用带弹性搜索的nutch 1.15-5.3.3

我们如何在nutch中的弹性搜索中抓取两个不同的网站并分别对其进行索引?这能在一个疯子的例子中实现吗?

目前,Nutch中没有任何东西可以执行文档传送。例如,如果使用index-jexl-filter,则在将文档发送给Nutch编写器之前进行过滤。您可以配置多个索引编写器(2(,然后文档将同时发送到两个索引编写程序。这些编写器可以写入不同的索引/文档类型,但所有文档都将以两种索引/文档形式结束。

也就是说,如果你在ES端找到了一种过滤的方法,你可以配置这些索引编写器,并将文档路由到这两个索引编写器。然后在摄入时在ES中进行过滤(可能是ES中的script,如果文档不符合某些要求,它会阻止文档开始摄入。但我无法在脑海中找到目前可以做到这一点的特定内容。

此外,您还可以克隆弹性索引器并对其进行自定义,以便从文档本身提取type

编辑

感谢@sebastian nagel指出这一点。

我完全错过了https://nutch.apache.org/apidocs/apidocs-1.15/org/apache/nutch/exchange/jexl/JexlExchange.html交换,这正是你想要的。这样就可以在索引时使用JEXL表达式进行文档路由。

最新更新