正在使用Anemone爬网子域



我正在使用Anemone。我也该如何抓取子域?例如,如果我有网站www.abc.com,我的爬网程序也应该爬网support.abc.comblah.abc.com。我使用的是Ruby 1.8.7和Rails 3。

这里有一个Github上的提交,可以解决您的问题。

https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928

根据链接更改您的海葵宝石文件。

根据Anemone文档,您可以将多个站点传递到crawl命令中:

Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

当然,你的下一个问题可能是美国广播公司禁止你访问他们的网站,但这是另一个问题。

相关内容

  • 没有找到相关文章

最新更新