Stormcrawler 不使用 Elasticsearch 索引内容



当使用Stormcrawler时,它会索引到Elasticsearch,而不是内容。

风暴爬行者是最新的"起源/主"https://github.com/DigitalPebble/storm-crawler.git

使用 elasticsearch-5.6.4

crawler-conf.yaml 有

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

网址和标题字段已编入索引,但不会为内容编制索引。

我试图通过遵循朱利安的教程来使其工作:https://www.youtube.com/watch?v=xMCuWpPh-4A

一切都在工作,除了内容没有被索引到 Elasticsearch 中。我觉得这是一些小的配置错误,但我尝试了许多变化,但没有运气。所以,现在我寻求帮助。

谢谢。

您确定内容未编入索引吗?内容字段未存储,请参阅ES_IndexInit.sh但应将其编入索引。要存储它,您可以修改 init 脚本并重新运行爬网,然后您可以将其与其他字段相同。若要测试它是否已编入索引,请尝试查询它并查看它如何影响结果。

最新更新