我目前正在通过我的rails应用程序解析twitter提要,并想知道如何可能跟踪tweet中的链接并抓取外部内容(例如,如果tweet包含指向TechCrunch上的文章的链接,则跟踪该链接到该文章并抓取文章的标题和正文内容)。iPad版Flipboard就是一个很好的例子。
我熟悉使用nokgirl/Mechanize抓取屏幕,但试图找出如何以一种无论tweet中的链接链接到哪里(无论是TechCrunch还是Flickr等)都可以工作的方式来完成这一点。
任何想法/见解将不胜感激!
许多主要的内容提供程序都提供了一个嵌入式端点。看一下oembed_links gem。来自自述文件:
它允许您轻松解析文本和查询已配置的提供程序,以便在链接上嵌入信息在文本里面。的样例配置文件库已包括在内(oembed_links_example.yml),尽管您也可以通过编程方式配置库(参见rdocs)。
如果您将oembed_links与http://oohembed.com/结合使用,您将有数十个内容提供程序为您处理。您可以轻松地编写一个自定义提供程序来处理其余的部分。