爬虫4j下载文章



我正在尝试使用Crawler4j从新闻门户下载文章。我想将它们存储在"体育"、"科学"、"健康"类别或该门户制作的任何其他类别下的文件夹中。URL 解析是不够的,因为某些门户不使用 URL 中的类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有没有更简单的方法?

您可以解析实际页面并使用CSS标签,识别标题或痕迹导航

我建议使用JSOUP。

您需要知道新闻网站以及哪个 css 标签是面包屑 css 标签。

相关内容

  • 没有找到相关文章

最新更新