您如何配置 Apache Nutch 2.3 以遵循机器人元标记



我有以HBase为后端的Nutch 2.3设置,我运行了一个爬网,其中包括Solr和Solr重复数据删除的索引。

我最近注意到Solr索引包含不需要的网页。

为了让Nutch忽略这些网页,我设置了以下元标记:

<meta name="robots" content="noindex,follow"> 

我访问了apache nutch官方网站,它解释了以下内容:

如果您无权编辑服务器上的/robots.txt 文件,您仍然可以告诉机器人不要索引您的页面或跟踪您的链接。其标准机制是机器人 META 标签

在网上搜索答案,我发现了一个建议,在 nutch-site.xml 中设置Protocol.CHECK_ROBOTSprotocol.plugin.check.robots设置为属性。这些似乎都不起作用。

目前,Nutch 2.3忽略了noindex规则,因此将内容索引到外部数据存储,即Solr。

问题是如何配置 Nutch 2.3 以支持机器人元标记?

此外,如果 Nutch 2.3 之前配置为忽略机器人元标记,并且在之前的抓取周期中为该网页编制了索引。如果漫游器元标记的规则正确,这是否会导致该网页在以后的抓取中从 Solr 索引中删除?

我创建了一个插件来克服Apache Nutch 2.3不遵守机器人元标记规则的问题noindex。元机器人插件迫使 Nutch 在索引期间丢弃符合条件的文档。这可以防止将合格文档索引到外部数据存储(即 Solr(。

请注意:此插件可防止包含机器人元标记规则的文档索引 noindex,它不会删除之前索引到外部数据存储的任何文档。

访问此链接以获取说明

相关内容

  • 没有找到相关文章

最新更新