使用Ruby从URL的HTML源代码中抓取文本

我在stackoverflow上读了一些关于这个话题的文章和帖子。如果我在stack上重复别人的帖子，我很抱歉。是否有一种方法可以迭代给定URL的HTML源代码并返回标题标记的文本?

的例子:

<h2 class='title'>
<a href="/blog/step-by-step-guide-to-building-your-first-ruby-gem">Step-by-Step Guide to Building Your First Ruby Gem</a>
</h2>

代码查找

标签并返回构建第一个Ruby Gem的分步指南。我知道有Nokogiri gem在xpath中搜索节点:

doc.xpath('//h3/a').each do |link|
puts link.content
end

有没有我可以写

的地方

doc.html('h1').each do |tag| puts link.content end

我希望这是有意义的…如果您对资源的方向有任何见解，我们将不胜感激。

Nokogiri同时具有XPath和CSS访问器，因此您可以

doc.css('h1 > a').each do |tag| puts link.content end

如果不喜欢XPath，请使用

。(或者只是'h1' -我不是100%确定，如果你想在标题链接的文本，或标题本身)。

相关内容