html解析-Ruby中提供的网页抓取宝石/工具

我正在尝试用我正在开发的Ruby脚本抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念。

我想刮的页面的一些例子是：

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

你推荐Ruby使用哪些网络抓取工具，为什么？请记住，有成千上万的股票基金，所以我使用的任何工具都必须相当快。

我是Ruby的新手，但我有使用lxml在Python中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py)。一旦下载了5000多个股票的页面，lxml就可以在几分钟内将它们全部刮走。（我记得我试过BeautifulSoup，但因为太慢而拒绝了。）

Ruby中有很多scraping gems可用，比如Hpricot、Nokogiri等等。我推荐Nokogiri刮static web pages。如果你正在刮dynamic web pages（意味着需要点击按钮、提交表单等）。我推荐内部使用Nokogiri的机械化。

我在https://www.ruby-toolbox.com/categories/html_parsing.html。我要和野宫里一起去，因为它是唯一一个仍然活跃的。

相关内容

最新更新

热门标签：