假设我解析了一行HTML,如下。。。
<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>
这只是一个例子。。。但是我该如何剥离除以下内容之外的所有内容:
http://www.google.com
logo.png
Go to google!
此外,是否可以搜索通配符?
如果你能利用一些宝石,这将是一项非常简单的工作。我推荐你Mechanize gem
。参考:http://mechanize.rubyforge.org/Mechanize.html
可能是这样的:
doc = Nokogiri::HTML '<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>'
doc.xpath('//*/@href|//*/@src|//*/text()').map(&:to_s)