小贝子编程

爬虫4j下载文章

本文关键字：文章下载 4j 爬虫 web-crawler crawler4j categorization
更新时间 : 2023-09-05
英文 : Crawler4j downloading articles

我正在尝试使用Crawler4j从新闻门户下载文章。我想将它们存储在"体育"、"科学"、"健康"类别或该门户制作的任何其他类别下的文件夹中。URL 解析是不够的，因为某些门户不使用 URL 中的类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有没有更简单的方法？

您可以解析实际页面并使用CSS标签，识别标题或痕迹导航

我建议使用JSOUP。

您需要知道新闻网站以及哪个 css 标签是面包屑 css 标签。

最新更新

Google Cloud Project : Access Issues
Photoshop脚本文件名/后缀
当文件的内容(Flux<DataBuffer>)包装在另一个对象中时，无法使用Web客户端上传文件
如何在SQL Server中使用动态作业名杀死作业列表
CSS文件在React组件文件中不工作
如何在日历中添加具有编辑事件能力的人?
我的 Pip 安装已损坏，我不知道如何重新安装它 [MAC/OSX]
为圆环添加背景色
pandas dataframe检查特定位置中的值是否为NaN值
在python 3.8.2上使用pip下载selenium时出现语法错误
Visual Studio 2019企业版离线安装失败
python中小写和大写的排列
在aws实例中安装rhel中的jenkins时出错
在colab中使用python从谷歌驱动器读取图像
如何根据映射到染色体的读数将bam文件拆分为单独的bam
JUnit测试简单的GUI
r语言 - 使用针织从 rstudio 更改.pdf文档的章节(部分)的样式包装乳胶 "titlesec"
选择所有在jquery中选择的插件
如何在材料UI中设置未来时间<文本字段类型="日期时间-本地" />
ImageData在获取一个像素时是不同的
NVRTC编译什么时候应该产生一个CUBIN?
套接字的真正定义是什么?
尝试使用outlook自动从python脚本发送邮件
检查调用两个函数调用是否调用同一个函数?
如何从数组中选择指定索引以在交换情况下使用它
尽管在PHP中使用$_POST检查isset()，代码仍会执行
如何添加多个版本不兼容的弹性搜索数据源?
Vaultsharp ： System.AggregateException： '发生一个或多个错误。({"错误"：["路由'KV-v2/data'没有处理程序)
将excel公式转换为VBA宏
动画PNG图层和创建一个GIF在Javascript?

爬虫4j下载文章

相关内容

最新更新

热门标签：