通过身份验证遍历网站的特定路径.Web爬虫或标准HttpClient

我必须在一个特定的路径遍历一个网站，并从那里提取信息。下面是高级操作。如果有人能让我知道我是否需要一个网络爬虫，或者我最好使用HttpClient或JDK的内置功能来编码这个流程，我将不胜感激。

进入网站
使用表单登录(转换到http)
点击一个特定的链接(切换回http)
填写表格数据并点击搜索按钮
网站每次返回1页结果
点击每个搜索结果
从链接中提取数据
执行步骤6和7，直到读取所有搜索结果。

我知道这是一个老问题，但如果有人正在寻找一个现有的网络爬虫这样做，知道Norconex HTTP Collector是一个网络爬虫支持基于表单的身份验证。除了登录表单URL之外，还可以指定起始URL。它会像你期望的那样登录并抓取你的网站/url。它要么跟随所有链接，要么只跟随那些符合你的标准的链接(regex模式，最大url，最大深度等)。它可以与不同的搜索引擎(Solr, Elasticsearch, Autonomy IDOL等)集成，或者您可以自己定义如何处理抓取的文档。

相关内容

最新更新

热门标签：