如何在使用爬虫4j时解析HTML

  • 本文关键字:HTML 4j 爬虫 java crawler4j
  • 更新时间 :
  • 英文 :


最近,我不得不用开源项目crawler4j抓取一些网站。但是,crawler4j没有提供任何api供使用。现在,我遇到了一个问题,即如何使用crawler4j提供的函数和类解析html并像使用jquery一样查找元素

这相对简单。以下方法对我有用。

MyCrawler.java

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...

相关内容

  • 没有找到相关文章

最新更新