我想从html文件中删除所有外部资源。我正在使用wget制作一些页面的本地副本。Wget可以选择将链接转换为本地文件系统,这很好,但仍然有一些链接(我相信在下载深度的末尾)保留了它们的外部src,所以它们包含http。
我能找到的最接近包含http的东西是使用这个:
doc.search("//*[以(@href,'http')]开头]")
但这只是找到href元素,http也可以出现在图像、视频和任何内容中。有什么想法吗?Nokogiri告诉我所有包含http的内容的正确指示是什么?
谢谢。
如果您只想将搜索扩展到以"http"开头的任何属性的元素,您可以这样做:
doc.search("//*[@*[starts-with(.,'http')]]")