HTTP基本认证与海葵网络蜘蛛

我需要从网站的所有页面收集所有"title"。
站点有HTTP基本认证配置。
如果没有授权，我将执行以下操作:

require 'anemone'
Anemone.crawl("http://example.com/") do |anemone|
  anemone.on_every_page do |page|
    puts page.doc.at('title').inner_html rescue nil
  end
end

但是我有一些问题与HTTP基本认证…
我如何从网站收集标题与HTTP基本授权?
如果我尝试使用"Anemone.crawl("http://username:password@example.com/")"，那么我只有第一页标题，但其他链接有http://example.com/样式，我收到401错误。

HTTP基本认证通过HTTP标头工作。客户端，想要访问受限制的资源，必须提供认证头，就像这样:

Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ==

包含名称和密码，base64编码。更多信息请参见维基百科文章:基本访问认证。

我谷歌了一下，没有找到一种方法让银莲花接受自定义请求头。也许你会更走运。

但是我发现了另一个声称可以做到的爬虫:梅西。也许你应该试一试

更新

这里是Anemone设置请求头的地方:Anemone::HTTP。事实上，这里没有定制。你可以monkeypatch。像这样的东西应该工作(把它放在你的应用程序的某个地方):

module Anemone
  class HTTP
    def get_response(url, referer = nil)
      full_path = url.query.nil? ? url.path : "#{url.path}?#{url.query}"
      opts = {}
      opts['User-Agent'] = user_agent if user_agent
      opts['Referer'] = referer.to_s if referer
      opts['Cookie'] = @cookie_store.to_s unless @cookie_store.empty? || (!accept_cookies? && @opts[:cookies].nil?)
      retries = 0
      begin
        start = Time.now()
        # format request
        req = Net::HTTP::Get.new(full_path, opts)
        response = connection(url).request(req)
        finish = Time.now()
        # HTTP Basic authentication
        req.basic_auth 'your username', 'your password' # <<== tweak here
        response_time = ((finish - start) * 1000).round
        @cookie_store.merge!(response['Set-Cookie']) if accept_cookies?
        return response, response_time
      rescue Timeout::Error, Net::HTTPBadResponse, EOFError => e
        puts e.inspect if verbose?
        refresh_connection(url)
        retries += 1
        retry unless retries > 3
      end
    end
  end
end

显然，您应该为basic_auth方法调用提供自己的username和password参数值。它又快又脏又硬，没错。但有时你没有时间以适当的方式做事。:)

相关内容

最新更新

热门标签：