我一直在用Jsoup获取html文档,就像这样:
Jsoup.connect(url).get();
但是我注意到 Jsoup 在给我数据之前会等待所有内容加载。我知道我正在寻找的数据在 Html 文档中。当查看响应(通过谷歌Chrome网络分析工具(时,HTML文档在前~100毫秒发送,我不想再等待~1500毫秒才能访问该数据。
有没有办法使请求跳过不需要的文件或在 Revinge html 文档后停止请求?
任何可以使获取数据的过程更快的建议将不胜感激。
你的假设实际上是错误的。Jsoup 只获取你传递 url 的一个文档。它不会自动获取任何资源(图像,css,js文件等(。你可以看看源代码来证明这一点。Jsoup 只会遵循重定向,如果激活。
服务器可能会延迟响应,因为您发送的请求没有User-Agent
标头。您可以使用Connection.userAgent()
解决此问题并添加例如 chrome 用户代理:
Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
.get();