我需要用 ruby 制作一个程序,通过命令行参数 (argv) 给出一个互联网地址,返回找到的图像列表(HTML 中的图像响应标签")和所有链接的列表,这些链接是链接其他页面的互联网地址(HTML 中的链接响应标签)
到目前为止,将页面代码的字符串与符号分开>和
此刻的代码
require 'net/http'
pagina= Net::HTTP.get(ARGV[0], '/index.html')
xx = pagina.split(/[<,>]/)
puts xx
puts xx.scan(/a href=/)
不要使用正则表达式来解析 HTML。
使用 HTML 解析器。例如,Nokogiri:
require 'net/http'
require 'nokogiri'
pagina = Net::HTTP.get(ARGV[0], '/index.html')
Nokogiri::HTML(pagina).css('a').map { |link| link['href'] }