漂亮的汤 HTML 与浏览器中的'View Page Source'不匹配



我一直在尝试使用bs4抓取网页,然而,HTML似乎与我在Chrome中使用'查看页面源代码'时所看到的不匹配。作为这个领域的新手,任何关于这方面的指导都将非常感谢!细节如下:

目标网页的示例和使用的代码如下所示。

import requests
from bs4 import BeautifulSoup
my_url = 'https://finance.yahoo.com/m/63c37511-b114-3718-a601-7e898a22439e/a-big-tech-encore-and-twitter.html'
response = requests.get(my_url)
doc = BeautifulSoup(response.text, "html.parser")
with open("output1.html", "w") as file:
file.write(str(doc))

在我的浏览器(Chrome)中查看页面源代码时,下面的代码片段包含在html:

"siteAttribute":"ticker="GOOGL;AAPL;PYPL;TWTR"

然而,当查看上面代码的文件输出时,siteAttribute已经改变,不再具有相同的信息。相反,它显示:

"siteAttribute":"wiki_topics="Big_Tech;Apple_Inc.;Facebook;

我上网查了一下,不知道是什么原因造成了差异?提前谢谢。

如果你点击chrome devtools的弹出框选项卡中的inspect,然后按ctrl + F并粘贴siteAttribute":"ticker="GOOGL;AAPL;PYPL;TWTR,那么你会看到所需的结果在脚本标签下。请看这里的截图

最新更新