wget:如何排除除一些已知的子域?

  • 本文关键字:何排除 排除 wget wget gnu
  • 更新时间 :
  • 英文 :


第一个问题是,例如:

我想从顶级域下载文件(例如。https://example.com/),包括来自子域的资源(例如;abc.example.com),但不来自其他子域,不确定

我发现--domain选项不执行精确匹配。所以wget --convert-links --adjust-extension --page-requisites --domains=example.com,abc.expample.com https://example.com/不工作。

--domains--exclude-domains在顺序上没有优先级。所以--exclude-domains .example.com --domains=example.com,abc.example.com也不像预期的那样。

那么,第一个问题是wget如何包括顶级域和特定子域,而不包括其他子域?


还有一个问题:

我可以写一个wget命令行,--span-host选项仅用于资产文件(js/css/image等,但不是文档)?

我发现——domain选项不执行精确匹配。所以Wget——convert-links——adjust-extension——page- requities——domains=example.com, abc.example.com https://example.com/无法正常工作。

你必须打开--span-hosts标志,--domains选项才能工作。

所以,正确的命令应该是:
wget --convert-links --adjust-extension --page-requisites --span-hosts --domains=example.com,abc.expample.com https://example.com/

相关内容

  • 没有找到相关文章

最新更新