如何忽略图像和其他不必要的文件以缩短 Jsoup 中的响应时间



我一直在用Jsoup获取html文档,就像这样:

Jsoup.connect(url).get();

但是我注意到 Jsoup 在给我数据之前会等待所有内容加载。我知道我正在寻找的数据在 Html 文档中。当查看响应(通过谷歌Chrome网络分析工具(时,HTML文档在前~100毫秒发送,我不想再等待~1500毫秒才能访问该数据。

有没有办法使请求跳过不需要的文件或在 Revinge html 文档后停止请求?

任何可以使获取数据的过程更快的建议将不胜感激。

你的假设实际上是错误的。Jsoup 只获取你传递 url 的一个文档。它不会自动获取任何资源(图像,css,js文件等(。你可以看看源代码来证明这一点。Jsoup 只会遵循重定向,如果激活。

服务器可能会延迟响应,因为您发送的请求没有User-Agent标头。您可以使用Connection.userAgent()解决此问题并添加例如 chrome 用户代理:

Jsoup.connect(url)
        .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
        .get();

最新更新