使用 hpricot 我可以获取一些div 的内容 -
doc = Hpricot(@response)
doc.search(".someDiv").each do |content|
puts content.inner_html
end
//这把以下内容
cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non
proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
<br>
some more text, images and other stuff
如何确保我只把东西放在换行符之前?
如果所有div 的段落结构都相同,您可以随时拆分内容:
doc = Hpricot(@response)
doc.search(".someDiv").each do |content|
puts content.inner_html.split("<br>").first
end