使用Python Windmill进行Web抓取(如何准确地等待页面完全加载)


  1. 我一直在玩风车来尝试一些网络抓取,但是API waits.forPageLoad无法检查页面是否完全呈现。

  2. 在一个场景中,我需要用现有的DOM重新加载页面,并使用waits.forElement来检测DOM,以便脚本"决定"页面是否已加载。这偶尔会在页面加载之前检测到DOM。

  3. 此外,在firefox中加载带有windmill测试客户端的页面似乎需要很长时间。如果我用普通的firefox浏览器加载同一个页面,可能需要2秒,但在测试客户端可能需要一分钟。花这么长时间是正常的吗?

  4. 最后,我想知道是否有比风车更好的替代品来进行网络抓取?文档似乎有点稀疏。

请提供建议。感谢:P

 client.waits.sleep(milliseconds=u'2000')

2秒的绝对停顿。

 client.waits.forPageLoad(timeout=u'20000')

将在未来的行中等待,直到页面加载,或者直到20秒过去,以先到者为准。把它想象成一个时间边界的断言。如果页面在20秒内加载通过,如果没有失败。

我希望这能有所帮助,

TD

相关内容

  • 没有找到相关文章

最新更新