如何从Nokogiri::HTML中获取标记名和CSS类



我一直在尝试用Nokogiri解析这些HTML文件。这是我使用的代码

require 'nokogiri'
doc = Nokogiri::HTML File.open('usc...html', 'r')
children = doc.css('body div')
children.each do |child|
    puts child.name
end

这为所有子元素打印div,即使它们几乎是整个ph3h4标签。有人能解释为什么会发生这种情况吗?另外,我如何从它们中获得CSS类?

这:

doc.css('body div')

将选择页面上的每个div。如果你想要你应该使用的每一个元素:

doc.css('*')

您可以使用child[:class] 访问css类

相关内容

  • 没有找到相关文章