使用Ruby从URL的HTML源代码中抓取文本



我在stackoverflow上读了一些关于这个话题的文章和帖子。如果我在stack上重复别人的帖子,我很抱歉。是否有一种方法可以迭代给定URL的HTML源代码并返回标题标记的文本?

的例子:

<h2 class='title'>
<a href="/blog/step-by-step-guide-to-building-your-first-ruby-gem">Step-by-Step Guide to Building Your First Ruby Gem</a>
</h2>

代码查找

标签并返回构建第一个Ruby Gem的分步指南。我知道有Nokogiri gem在xpath中搜索节点:
doc.xpath('//h3/a').each do |link|
puts link.content
end

有没有我可以写

的地方
doc.html('h1').each do |tag| puts link.content end

我希望这是有意义的…如果您对资源的方向有任何见解,我们将不胜感激。

Nokogiri同时具有XPath和CSS访问器,因此您可以

doc.css('h1 > a').each do |tag| puts link.content end
如果不喜欢XPath,请使用

。(或者只是'h1' -我不是100%确定,如果你想在标题链接的文本,或标题本身)。

最新更新