我正在尝试使用Crawler4j从新闻门户下载文章。我想将它们存储在"体育"、"科学"、"健康"类别或该门户制作的任何其他类别下的文件夹中。URL 解析是不够的,因为某些门户不使用 URL 中的类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有没有更简单的方法?
您可以解析实际页面并使用CSS标签,识别标题或痕迹导航
我建议使用JSOUP。
您需要知道新闻网站以及哪个 css 标签是面包屑 css 标签。
我正在尝试使用Crawler4j从新闻门户下载文章。我想将它们存储在"体育"、"科学"、"健康"类别或该门户制作的任何其他类别下的文件夹中。URL 解析是不够的,因为某些门户不使用 URL 中的类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有没有更简单的方法?
您可以解析实际页面并使用CSS标签,识别标题或痕迹导航
我建议使用JSOUP。
您需要知道新闻网站以及哪个 css 标签是面包屑 css 标签。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium