小贝子编程

使用Nokogiri从HTML中删除所有外部资源

我想从html文件中删除所有外部资源。我正在使用wget制作一些页面的本地副本。Wget可以选择将链接转换为本地文件系统，这很好，但仍然有一些链接（我相信在下载深度的末尾）保留了它们的外部src，所以它们包含http。

我能找到的最接近包含http的东西是使用这个：

doc.search（"//*[以（@href，'http'）]开头]"）

但这只是找到href元素，http也可以出现在图像、视频和任何内容中。有什么想法吗？Nokogiri告诉我所有包含http的内容的正确指示是什么？

谢谢。

如果您只想将搜索扩展到以"http"开头的任何属性的元素，您可以这样做：

doc.search("//*[@*[starts-with(.,'http')]]")

相关内容