通过身份验证遍历网站的特定路径.Web爬虫或标准HttpClient



我必须在一个特定的路径遍历一个网站,并从那里提取信息。下面是高级操作。如果有人能让我知道我是否需要一个网络爬虫,或者我最好使用HttpClient或JDK的内置功能来编码这个流程,我将不胜感激。

  1. 进入网站
  2. 使用表单登录(转换到http)
  3. 点击一个特定的链接(切换回http)
  4. 填写表格数据并点击搜索按钮
  5. 网站每次返回1页结果
  6. 点击每个搜索结果
  7. 从链接中提取数据
  8. 执行步骤6和7,直到读取所有搜索结果。

我知道这是一个老问题,但如果有人正在寻找一个现有的网络爬虫这样做,知道Norconex HTTP Collector是一个网络爬虫支持基于表单的身份验证。除了登录表单URL之外,还可以指定起始URL。它会像你期望的那样登录并抓取你的网站/url。它要么跟随所有链接,要么只跟随那些符合你的标准的链接(regex模式,最大url,最大深度等)。它可以与不同的搜索引擎(Solr, Elasticsearch, Autonomy IDOL等)集成,或者您可以自己定义如何处理抓取的文档。

最新更新