这是我试图抓取的URL:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
我正在尝试使用 Python抓取网页,这意味着我需要此页面的 XHR 请求,因为它是通过 JavaScript 加载的。
在开发人员工具下检查网络时,我可以看到 XHR 请求:a10-qq320196292019.htm它生成请求 URL:https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
我的问题是双重的,
- 如果我仅使用最初给出的 URL 进行访问,我如何自动获取此请求 URL,
- 我如何知道这是我需要的 XHR 请求?这个特定的 URL 适合我的需求,但我注意到还有许多其他 XHR 要求。如何区分?
在这种情况下,我认为你不需要走那条路。您使用的链接是实际 html 文档的 ixbrl 视图。html 文档的 url 嵌入在第一个链接中。您所要做的就是提取它:
url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
html_url = url.replace('/ix?doc=','')
html_url
输出:
'https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm