用Ruby抓取一个Javascript很重的网站



我想抓取/抓取一些严重依赖Javascript的网站,而我的机械化代理(我通常使用的代理)无法处理这些网站,因为它无法呈现html。这个网站就是一个很好的例子。

有没有任何方法可以从RubyonRails应用程序中获得该网站的html输出?

我使用的是Ruby 2.0.0和Rails 4.0.1

您可以使用Capybara来完成此操作

  • http://www.chrisle.me/2012/12/scraping-html5-sites-using-capybara-phantomjs/

或者在谷歌上搜索"水豚"刮刀。

需要注意的一点是,表现会很糟糕。我建造了这样一个刮刀,但它几乎不值得。

您可以使用I-Macros进行Web抓取。你提到的网站使用框架。因此每个帧可以被视为单独的页面并被刮除。作为替代方案,您可以使用使用apacheHttpClient/HtmlUnitAPI的简单java程序。

最新更新