Nutch 获取计划程序以重新抓取网络

我已经按照这篇文章配置了用于重新抓取网站的获取计划，但它似乎不起作用。在 nutch-site 中添加了以下属性.xml以计划每 10 分钟重新抓取一次，因为我想重新抓取特定网站以获取更改的页面。

<property>
  <name>db.fetch.schedule.class</name>
  <value>org.apache.nutch.crawl.DefaultFetchSchedule</value>
  <description>The implementation of fetch schedule. DefaultFetchSchedule simply 
  adds the original fetchInterval to the last fetch time, regardless of 
  page changes.</description>
</property>
<property>
  <name>db.fetch.interval.default</name>
  <value>600</value>
  <description>The default number of seconds between re-fetches of a page (30 days). 
  </description>
</property>

我的问题是重新爬网会在每 10 分钟后自动开始，还是我需要做任何其他配置，或者我必须以某种方式触发它？

您应该创建 cronjob 以自动爬网。db.fetch.interval.default 只告诉 nutch 在上次抓取后是否应该抓取此页面。

相关内容

最新更新

热门标签：