html解析-Ruby中提供的网页抓取宝石/工具



我正在尝试用我正在开发的Ruby脚本抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念。

我想刮的页面的一些例子是:

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

你推荐Ruby使用哪些网络抓取工具,为什么?请记住,有成千上万的股票基金,所以我使用的任何工具都必须相当快。

我是Ruby的新手,但我有使用lxml在Python中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py)。一旦下载了5000多个股票的页面,lxml就可以在几分钟内将它们全部刮走。(我记得我试过BeautifulSoup,但因为太慢而拒绝了。)

Ruby中有很多scraping gems可用,比如Hpricot、Nokogiri等等。我推荐Nokogiristatic web pages。如果你正在刮dynamic web pages(意味着需要点击按钮、提交表单等)。我推荐内部使用Nokogiri的机械化。

我在https://www.ruby-toolbox.com/categories/html_parsing.html。我要和野宫里一起去,因为它是唯一一个仍然活跃的。

最新更新