使用Nokogiri从HTML中删除所有外部资源



我想从html文件中删除所有外部资源。我正在使用wget制作一些页面的本地副本。Wget可以选择将链接转换为本地文件系统,这很好,但仍然有一些链接(我相信在下载深度的末尾)保留了它们的外部src,所以它们包含http。

我能找到的最接近包含http的东西是使用这个:

doc.search("//*[以(@href,'http')]开头]")

但这只是找到href元素,http也可以出现在图像、视频和任何内容中。有什么想法吗?Nokogiri告诉我所有包含http的内容的正确指示是什么?

谢谢。

如果您只想将搜索扩展到以"http"开头的任何属性的元素,您可以这样做:

doc.search("//*[@*[starts-with(.,'http')]]")

相关内容

  • 没有找到相关文章

最新更新