使用应用程序脚本抓取JavaScript渲染的网页



我正在努力将脚本放在一起,以处理通过应用程序脚本呈现的JavaScript网页的抓取。 找到这个 如何使用Javascript抓取Javascript渲染的网站? 在这里,但我不知道如何把它放在一起。比如负载木偶师。任何帮助将不胜感激。

您可以尝试抓取初始 HTML,因为实际上抓取渲染的 HTML 非常困难,因此您必须使用无头浏览器。

有这个库:https://github.com/tautologistics/node-htmlparser 可以用来从JavaScript解析HTML的,它在node中,但由于它不使用任何依赖项,所以您可以复制并粘贴所需的函数。

解析它恐怕不是一件容易的事。

最新更新