Apache Nutch 不会抓取链接中的所有网站

我已经用Hadoop/Hbase生态系统配置了Apache Nutch 2.3.1。以下是配置信息。

<configuration>
<property>
<name>db.score.link.internal</name>
<value>5.0</value>
</property>
<property>
<name>enable.domain.check</name>
<value>true</value>
</property>
<property>
<name>http.timeout</name>
<value>30000</value>
</property>
<property>
<name>generate.max.count</name>
<value>200</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>

<property>
<name>http.agent.name</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>    
</property>
</configuration>

运行 Nutch 作业的计算节点有 3 个。现在的问题是，在使用 5000 个域作为起始种子后，nutch 只获取了几个域，并且还有很多新域只获取了一个文档。我想要坚果应该公平地获取所有域。我也给inlinks打了5分，但我的tweeking表明这个属性根本没有影响。

我有后处理抓取数据，发现数据库中总共有 14000 个域 (hbase(，其中超过 50% 的域未被 Nutch 抓取(他们的文档具有获取状态代码 0x01(。为什么会这样。如何更改坚果以考虑新域，即，它应该以某种方式对所有域公平获取。

你是如何爬行的？ bin/crawl具有确定深度的功能(链接如下(。您可以通过在参数中使用bin/nutch来获得良好的结果，并且根据您想要的网站近似总大小，您应该每3000页至少运行一次。这意味着如果您有 18000 个页面(包括链接检索的页面(，您将运行它 1800/3= 6 次以获得完整数据。

相关内容

最新更新

热门标签：