如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python)



这是我试图抓取的URL:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我正在尝试使用 Python抓取网页,这意味着我需要此页面的 XHR 请求,因为它是通过 JavaScript 加载的。

在开发人员工具下检查网络时,我可以看到 XHR 请求:a10-qq320196292019.htm它生成请求 URL:https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我的问题是双重的,

  1. 如果我仅使用最初给出的 URL 进行访问,我如何自动获取此请求 URL,
  2. 我如何知道这是我需要的 XHR 请求?这个特定的 URL 适合我的需求,但我注意到还有许多其他 XHR 要求。如何区分?

在这种情况下,我认为你不需要走那条路。您使用的链接是实际 html 文档的 ixbrl 视图。html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它:

url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url

输出:

'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

最新更新