如何获取 url 在 crawler4j 中是 404 还是 301



是否可以在crawler4j中获取URL是否为404或301?

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);
        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();
            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

我在爬虫代码中使用它.谁能告诉我怎么做?

As Crawler4j

版本 3.3(2012 年 2 月发布) - Crawler4j 支持处理已获取页面的 http 状态代码。

以访问状态处理程序爬网程序示例单击。

你也可以使用Jsoup(Java HTML Parser,最好的DOM,CSS和jquery)来解析页面。这里有一个例子 - 展示如何从给定的URL下载页面并获取页面状态代码。我认为你应该使用Crawler4j进行抓取,使用Jsoup进行页面获取。

相关内容

  • 没有找到相关文章

最新更新