小贝子编程

如何在使用爬虫4j时解析HTML

本文关键字：HTML 4j 爬虫 java crawler4j
更新时间 : 2023-08-28
英文 : how to parse the html when using crawler4j

最近，我不得不用开源项目crawler4j抓取一些网站。但是，crawler4j没有提供任何api供使用。现在，我遇到了一个问题，即如何使用crawler4j提供的函数和类解析html并像使用jquery一样查找元素

这相对简单。以下方法对我有用。

在MyCrawler.java：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...

最新更新

每次保存时Nodemon EADDRINUSE错误
检查地址是否与行缓存对齐
如何将芹菜应用程序部署到谷歌云?
计数数组中的列表成员对
如何删除特定用户名而非ID的某些消息
表每层级表缺少子类型的列
Php Sendgrid问题在服务器上
删除字符串开头和结尾的所有回车和空格
如何在Spring中使用Swagger
StackOverflowException处理c#中的事件
无法捕获和存储来自postman API - python的响应
@elastic/elasticsearch NPM库不能在mongodb领域功能中工作
我试图在这个excel csv类型文档中打印类下的所有项目，但我一直得到属性错误
尝试检查文档是否有字段存在，如果存在，在pymongo中编辑它
无法通过 CNG API 将生成的公钥从 NodeJS 加载到 Windows 中
在一个组件vuejb中有两个不同的数组
是否可以创建json键作为typescript对象?
设置数据库中列的对齐方式
使用DHTxx.Dht11读取数据
拒绝Kubernetes pod上的出口流量到internet
Wordpress中的漂亮Url
Google Cloud Project : Access Issues
Photoshop脚本文件名/后缀
当文件的内容(Flux<DataBuffer>)包装在另一个对象中时，无法使用Web客户端上传文件
如何在SQL Server中使用动态作业名杀死作业列表
CSS文件在React组件文件中不工作
如何在日历中添加具有编辑事件能力的人?
我的 Pip 安装已损坏，我不知道如何重新安装它 [MAC/OSX]
为圆环添加背景色
pandas dataframe检查特定位置中的值是否为NaN值

如何在使用爬虫4j时解析HTML

相关内容

最新更新

热门标签：