选择一个Python网络抓取框架来处理纯基于Javascript的网站



我是一名专门从事网络抓取的Python程序员,我不得不问这个问题,因为我没有发现任何相关的问题。

我想知道哪些流行的、文档齐全的框架可用于Python抓取纯基于Javascript的网站?目前我知道机械化和美丽汤,但它们不与Javascript交互,所以我正在寻找不同的东西。我更喜欢像机械化一样优雅简单的东西。

我做了一些研究,到目前为止,我听说过硒、硒2和风车。

现在我正试着在这三个中选择一个,我不知道还有其他的。

那么,有人能指出这些框架的特点以及它们的不同之处吗?我听说Selenium使用一个单独的服务器来完成它的所有任务,而且它似乎功能丰富。硒和硒的核心区别是什么?如果我错了,请告诉我,如果你知道任何其他框架,请提到它的功能和其他细节。

谢谢。

在使用Selenium等专为前端测试而非刮擦而设计的工具之前,您应该先了解一下网站上的数据来自哪里。了解XHR请求的内容、参数以及结果

例如,您在评论中提到的站点会用JavaScript中的许多参数进行POST请求,并显示结果。您可能只需要使用这个POST请求的结果来获取数据。

相关内容

  • 没有找到相关文章

最新更新