是否可以在crawler4j中获取URL是否为404或301?
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
System.out.println("URL: " + url);
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String text = htmlParseData.getText();
String html = htmlParseData.getHtml();
List<WebURL> links = htmlParseData.getOutgoingUrls();
System.out.println("Text length: " + text.length());
System.out.println("Html length: " + html.length());
System.out.println("Number of outgoing links: " + links.size());
}
}
我在爬虫代码中使用它.谁能告诉我怎么做?
As Crawler4j
版本 3.3(2012 年 2 月发布) - Crawler4j 支持处理已获取页面的 http 状态代码。
以访问状态处理程序爬网程序示例单击。
你也可以使用Jsoup(Java HTML Parser,最好的DOM,CSS和jquery)来解析页面。这里有一个例子 - 展示如何从给定的URL下载页面并获取页面状态代码。我认为你应该使用Crawler4j进行抓取,使用Jsoup进行页面获取。