在 ruby 中找到 HTML 代码中的图像和引用



我需要用 ruby 制作一个程序,通过命令行参数 (argv) 给出一个互联网地址,返回找到的图像列表(HTML 中的图像响应标签")和所有链接的列表,这些链接是链接其他页面的互联网地址(HTML 中的链接响应标签)

到目前为止,将页面代码的字符串与符号分开>和

此刻的代码

require 'net/http'
pagina= Net::HTTP.get(ARGV[0], '/index.html')
xx = pagina.split(/[<,>]/)
puts xx
puts xx.scan(/a href=/)

不要使用正则表达式来解析 HTML

使用 HTML 解析器。例如,Nokogiri:

require 'net/http'
require 'nokogiri'
pagina = Net::HTTP.get(ARGV[0], '/index.html')
Nokogiri::HTML(pagina).css('a').map { |link| link['href'] }

最新更新