如何检测网页是否是从Python中的Javascript动态呈现的



我正在构建一个web scraper,它必须仅从HTML快速检索网页的文本。我使用的是Python、requestsBeautifulSoup。我想检测一下网页内容是纯HTML还是用Javascript呈现的。在最后一种情况下,我只会返回一条错误消息,说这是不可能的。

我知道无头浏览器可以渲染Javascript,但在这种情况下,我真的只需要以最快的方式检测它,而不必渲染它

实际上不可能检测到script标签,因为每个网页中都有很多标签,这并不意味着文本内容必须用Javascript呈现。

我是否可以在HTML中检查某些内容,以便告诉我正文内容将由Javascript呈现?

谢谢

初始DOM中没有任何内容预先显示该站点是用js渲染的。以下是一些你可以尝试的东西:

  • 分析几个网站并猜测网站的位置根据页面的内容大小使用js进行渲染
  • 你还可以获得网站不同页面的html并比较内容长度(对于js渲染的网站在执行任何代码之前,不同页面的内容可能是相同/相似的(
  • 检查脚本的内容大小或检测的脚本名称react、vue和angular等著名技术

最新更新