小贝子编程

用Ruby抓取一个Javascript很重的网站

本文关键字：Javascript 网站一个抓取 Ruby javascript ruby-on-rails ruby web-crawler mechanize
更新时间 : 2023-08-31
英文 : Crawling a Javascript heavy site with Ruby

我想抓取/抓取一些严重依赖Javascript的网站，而我的机械化代理（我通常使用的代理）无法处理这些网站，因为它无法呈现html。这个网站就是一个很好的例子。

有没有任何方法可以从RubyonRails应用程序中获得该网站的html输出？

我使用的是Ruby 2.0.0和Rails 4.0.1

您可以使用Capybara来完成此操作

或者在谷歌上搜索"水豚"刮刀。

需要注意的一点是，表现会很糟糕。我建造了这样一个刮刀，但它几乎不值得。

您可以使用I-Macros进行Web抓取。你提到的网站使用框架。因此每个帧可以被视为单独的页面并被刮除。作为替代方案，您可以使用使用apacheHttpClient/HtmlUnitAPI的简单java程序。

相关内容