使用Wget下载所有支持css/js/img文件的网页



我已经搜索了很多如何实现这一点,但无济于事。我想从一个网站下载只有1页,但也下载所有的css/js/img文件并行。我尝试了以下命令,但它没有像预期的那样工作:

wget -k -np -p --adjust-extension http://example.com

你知道怎么做吗?

我想要以下内容:

-FOLDER
--index.html
---assets_folder
---- style.css
---- script.js
---- IMAGES_FOLDER_WITH_ALL_NEEDED_IMAGES_TO_DISPLAY_THE_PAGE

但所有资产,甚至cdn。

您试过wget -k -np -p -H --adjust-extension http://example.com了吗?

-H(或--span-hosts)标志允许从第三方主机(即cdn)检索资产。

wget不适合此任务,因为它解析您传递给它的URL的能力有限。

虽然wget可以拉一些样式表和脚本可能无法渲染页面,所以它没有的方法构建一个解释版本的HTML标记的所有资源——这是一个任务,只有一个浏览器能做到正确,这就是为什么甚至web spider广告等使用成熟的渲染引擎,比如webkit(勇敢的背后的核心库/丁目/铬/歌剧/优势/等等)。

wget对于老派的静态页面来说是很棒的,但是对于gmail风格的web应用程序,社交网络和任何在前端出现的东西来说,它几乎是无用的。

对于具有动态内容的现代网页,您可以使用浏览器扩展获得更好的结果,例如WebScrapBook (firefox &chrome), Save Page WE (firefox)等。

最新更新