将使用 wget 下载的网页的目录索引重命名为 index.html



我目前正在使用一个相当复杂的wget命令,但它的本质是下载所有先决条件的-p-k标志。如何将下载的主文件重命名为索引.html?

例如,我下载了一个网页

http://myawesomewebsite.com/something/derp.html

例如,这将下载:

  1. derp.html
  2. style.css
  3. firstimage.png
  4. secondimage.jpg

甚至可能是一个iFrame:

  1. iframe.html
  2. iframe-style.css

所以现在的问题是我如何将derp.html重命名为 index.html ,而不会意外地将iframe.html重命名为 index.html,因为我不知道解析的下载文件的名称可能是什么?

当我在带有URL的Tumblr页面上尝试此方法时http://something.tumblr.com/34324/post它下载为page.html.

我已经尝试了--output-document标志,但这会导致根本没有下载任何内容。

谢谢!

这就是我最终所做的:

如果下载后没有找到index.html,我用Ruby获取URL的derp.html部分,然后搜索derp.html,然后将其重命名为index.html

它没有我想要的那么优雅,但它有效。

最新更新