在 JS 执行后递归镜像网页



我正在尝试递归镜像网页,例如将所有页面放在一个网页上。所有网页都在一个文件夹的子文件夹中,因此我可以使用 wget 轻松镜像所有网页:

wget --mirror --recursive --page-requisites --adjust-extension --no-parent --convert-links https://www.example.com/

但是,在执行某些 JS 脚本之前会镜像页面,并且这些 JS 脚本不会被镜像。我也需要以某种方式镜像它们,因为它们会更改网页的 DOM。另一种选择是等待网站完成加载并镜像加载的网页(任务不是时间紧迫的(。

我已经尝试过用PhantomJS镜像网页,但我不能使用PhantomJS使用递归,或者至少我找不到如何。我还仔细查看了 wget 手册页,但找不到任何相应的选项。

有没有可能这样做?提前谢谢。

wget

不执行任何JavaScript。您可能需要通过像 splash 这样的代理。我以前在刮擦蜘蛛身上使用过飞溅,但从未在wget上使用过。值得一试

最新更新