如何根据主机将StormCrawler内容发送到多个Elasticsearch索引



我目前有一个成功的StormCrawler实例对大约20个网站进行了爬网,并将内容索引到一个Elasticsearch索引中。是否可以在ES中或通过StormCrawler将每个主机的内容发送到其自己的唯一内容索引?

出于好奇:你为什么需要这么做?每个主机有一个索引似乎相当浪费。如果要提供特定主机的结果,可以根据类似字段的主机筛选结果。

为了回答你的问题,目前还没有直接的方法,因为IndexerBolt只连接到一个索引。您可以为所需的每个索引声明一个IndexerBolt,并根据主机元数据的值向风扇添加一个自定义螺栓,但这不是动态的,而且相当繁重。可能有一种方法可以使用ES中的管道来实现这一点,但不确定。

最新更新