我正在尝试抓取一些内容并使用Nokogiri解析它!现在受到打击,因为我正试图得到一些文本内容,其中不包含在任何类型的标签。只有文本,其中一些在标签中没有任何类或id。
我可以通过搜索内容/文本的开始和结束来找到内容,并在两者之间获得所有内容吗?
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
CSS选择器或Xpath,任何解决方案都很棒。
require "nokogiri"
Nokogiri::HTML.parse(<<_).css("body").children.first.text
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "ntext "
Nokogiri::HTML.parse(<<_).css("body").children.first.text.strip
<body>
text <br/>
<ul>
<li>some more text </li>
</body>
_
# => "text"