如何从通过 JavaScript 加载的页面的 XHR 请求中自动检索请求 URL(对于 python)

这是我试图抓取的URL：https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我正在尝试使用 Python抓取网页，这意味着我需要此页面的 XHR 请求，因为它是通过 JavaScript 加载的。

在开发人员工具下检查网络时，我可以看到 XHR 请求：a10-qq320196292019.htm它生成请求 URL：https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

我的问题是双重的，

如果我仅使用最初给出的 URL 进行访问，我如何自动获取此请求 URL，
我如何知道这是我需要的 XHR 请求？这个特定的 URL 适合我的需求，但我注意到还有许多其他 XHR 要求。如何区分？

在这种情况下，我认为你不需要走那条路。您使用的链接是实际 html 文档的 ixbrl 视图。html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它：

url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url

输出：

'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm

相关内容

最新更新

热门标签：