Nutch 不会抓取表单中的所有链接



我在抓取我的网站时遇到问题...有一个带有两个下拉列表的表单。当我开始抓取时,爬虫只从表单中获取部分链接....从第一个下拉列表中,它需要部分选项,就像从第二个下拉列表中一样。我尝试在 nutch-defaults.xml 文件中更改一些配置,但一切都是一样的......

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000

有没有其他选项可以帮助我抓取表单中的所有选项......??感谢您的回答。

抱歉,代表太低,无法发表评论!!

你有链接吗?

还有下拉菜单 ajax 或花哨的东西。内存中的坚果只会抓取页面上的内容。即,如果您在页面加载时加载前 10 个,并且仅在用户滚动时加载其余的服务,我相信它找不到。

更多的信息会很好重新页面....

干杯知更鸟

感谢您的回答。这是[链接](auto.am/en),爬行后我只有大约100个品牌,并不是我拥有的所有汽车品牌模型。...我希望在您获得链接后,您会建议抓取所有汽车品牌和型号的解决方案:)。谢谢。

最新更新