使用Jsoup从URL进行部分提取



我试图用Jsoup从URL提取所有的HTML,但检查提取,我的文档只包含HTML的一部分。你能帮我解决这个问题吗?下面的代码使用:

Document doc = Jsoup.connect("https://www.diretta.it/").get();
System.out.println(doc);

result from:

...
var leftMenuEnvironment = {"trans":{"TRANS_DC_INCIDENT_SUBTYPE_31":"ERS","TRANS_DC_INCIDENT_SUBTYPE_32":"Iniezione","TRANS_DC_INCIDENT_SUBTYPE_33":"
...

和not from:

<body class="responsive background-add-off isWide soccer _fs flat pid_400 mgc oneLineLayout isSportPage fcp-skeleton light-bg-1 v3 bg3 seoTopWrapperHidden theme--dark tablet_ad">
<div class="otPlaceholder otPlaceholder--hidden">
...

你的代码是好的,问题是你的IDE: html的大小超过170kb,当你用IDE打印到屏幕上时,它将只显示它的结尾。尝试将其保存到文件中,或者打印其中的一部分:

String start = doc.html().substring(0, 500);
System.out.println(start);

,你会看到html的开头。

最新更新