使用jsoup检查jpg文件的HTTP状态



我正在使用jsoup获取URL的http状态代码,如下所示:

Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
                    response = Jsoup.connect(url)
                            .userAgent("Mozilla/5.0 (X11  Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                            .timeout(10000)
                            .execute()
                    int statusCode = response.statusCode()
                    if (statusCode == 200)
                        urlExists = true
                    else
                        urlExists = false

基本上,我想检查指定的url是否返回200状态码,即是否是html页面,是否存在,是否是pdf文件,是否存在等等。它不适用于以.jpg结尾的url,因为jsoup无法解析jpg文件。我将jsoup与crawler4j结合使用。有没有其他方法可以找到所有url的http状态代码。我的url以以下扩展名结尾:

cssjspdf拉链rar焦油pnggifhtml

你不能直接使用吗

int responseCode = new URL(url).openConnection().responseCode

相关内容

  • 没有找到相关文章

最新更新