呈现html页面并使用命令行保存它



我想加载一个网页,并使用命令行保存它(想要得到一个类似的行为,我们得到保存页面作为一个完整的页面在firefox或chrome。)

我尝试使用wget和httrack,他们给我正确的html文件。但如果是格式错误的html浏览器会在渲染时纠正它使用save as我们会得到正确的html但这不会发生在wget或htttrack。

是否有工具可以渲染页面并保存页面以及所有的图像和flash和所有其他东西在本地

我找不到任何其他内容,所以最终在firefox中打开页面并点击另存为按钮并保存它。使用firefox和xdotools为它编写了一个脚本,使整个任务自动化。

感谢所有的帮助和意见的朋友。

当我想保存页面以供离线使用时,我使用一个名为"剪贴簿"的Firefox插件。当然,这并不能满足您的命令行需求。但如果你使用类似htmlunit之类的工具,你就可以让Firefox浏览器转到你想保存的页面。

我觉得今天需要类似的东西(并选择了xdotool路径)。您可以在以下网址找到我的版本(一个可重用的bash脚本):https://github.com/abiyani/automate-save-page-as

您可以将curl或wget与tidyhtml结合使用,即

    curl http://stackoverflow.com > page.html
    tidy page.html > page_clean.html

Tidy应该能够将任何无效的HTML标记转换为有效的xml。

有一些复杂的软件可以做到这一点:https://launchpad.net/shotfactory

最新更新