当使用Stormcrawler时,它会索引到Elasticsearch,而不是内容。
风暴爬行者是最新的"起源/主"https://github.com/DigitalPebble/storm-crawler.git
使用 elasticsearch-5.6.4
crawler-conf.yaml 有
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
网址和标题字段已编入索引,但不会为内容编制索引。
我试图通过遵循朱利安的教程来使其工作:https://www.youtube.com/watch?v=xMCuWpPh-4A
一切都在工作,除了内容没有被索引到 Elasticsearch 中。我觉得这是一些小的配置错误,但我尝试了许多变化,但没有运气。所以,现在我寻求帮助。
谢谢。
您确定内容未编入索引吗?内容字段未存储,请参阅ES_IndexInit.sh但应将其编入索引。要存储它,您可以修改 init 脚本并重新运行爬网,然后您可以将其与其他字段相同。若要测试它是否已编入索引,请尝试查询它并查看它如何影响结果。