通过张贴表格从网站收集数据



我试图从一些使用python的网页收集一些数据(他们没有API)。我以前从来没有这样做过。

我认为是ASP。. NET(我对它知之甚少)或一些带有表单帮助器的库,他们正在使用,这使得通过使用urllib发送相同的postdata来"手动"重新创建请求变得非常复杂。他们期望有各种奇怪的对人类不友好的后数据——天知道他们是什么意思(和开发人员)。

我试着删除这些然而,只是保持基本数据,但这打破了请求。例如,当我在分页中更改页面时,也会有某种"散列"字符串发生变化(如您所期望的那样,简单的page=x查询字符串是不够的)。

所以,与其花几个小时去弄清楚每件事是如何工作的,我想这里有一些库可以帮助我。对于像浏览器这样的界面,我可以给它一个url,告诉它要填写什么表单,要去什么链接,它会自动处理cookie,隐藏输入等,然后给我html输出。

我希望你明白我在找什么。也许它不存在,但我觉得它会很有用,所以它应该存在。

解决这个问题的其他方法也很有帮助。

谢谢

如果您需要类似浏览器的行为,请查看Selenium WebDriver或类似ghost.py的项目。

你应该试试Scrapy。

Python 3 -使用Scrapy抓取网页

scrapy.org

相关内容

  • 没有找到相关文章

最新更新