我正在处理从网页中抓取数据的问题。我所做的是每天"点击"一些页面,并记录页面内容,以便进一步提取。当然,有几十个页面和几个月的点击时间,所以一切都是自动化的。通常,我将curl
与Cookie和POST一起使用,效果非常好。但我现在有一些"智能"页面,它们使用了一些javascript、sessions、voodoo等,不允许简单地被抓取。我真的需要点击一些按钮才能得到我想要的东西。
所以,我想让这些动作自动化。你会推荐什么解决方案(语言、插件…)?我知道iMacros;有什么可供选择的、可比较的解决方案吗?还是"唯一"?(顺便说一句,我在Linux下工作)
感谢的所有建议
编辑
相关:
- iMacros
- Watir
我建议您将Watir与ruby一起使用。它真的很容易使用,跨平台和跨浏览器。当然,它有一个非常好的文档。
ruby可以在这里下载:http://www.ruby-lang.org或者在你的情况下,我建议你去。
Watir在这里:http://watir.com/但使用安装更容易
gem install watir
不要忘记安装和更新rubygems。