我正在使用Anemone。我也该如何抓取子域?例如,如果我有网站www.abc.com
,我的爬网程序也应该爬网support.abc.com
或blah.abc.com
。我使用的是Ruby 1.8.7和Rails 3。
这里有一个Github上的提交,可以解决您的问题。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
根据链接更改您的海葵宝石文件。
根据Anemone文档,您可以将多个站点传递到crawl
命令中:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
当然,你的下一个问题可能是美国广播公司禁止你访问他们的网站,但这是另一个问题。