使用Jsoup从URL进行部分提取

我试图用Jsoup从URL提取所有的HTML，但检查提取，我的文档只包含HTML的一部分。你能帮我解决这个问题吗?下面的代码使用:

Document doc = Jsoup.connect("https://www.diretta.it/").get();
System.out.println(doc);

result from:

...
var leftMenuEnvironment = {"trans":{"TRANS_DC_INCIDENT_SUBTYPE_31":"ERS","TRANS_DC_INCIDENT_SUBTYPE_32":"Iniezione","TRANS_DC_INCIDENT_SUBTYPE_33":"
...

和not from:

<body class="responsive background-add-off isWide soccer _fs flat pid_400 mgc oneLineLayout isSportPage fcp-skeleton light-bg-1 v3 bg3 seoTopWrapperHidden theme--dark tablet_ad">
<div class="otPlaceholder otPlaceholder--hidden">
...

你的代码是好的，问题是你的IDE: html的大小超过170kb，当你用IDE打印到屏幕上时，它将只显示它的结尾。尝试将其保存到文件中，或者打印其中的一部分:

String start = doc.html().substring(0, 500);
System.out.println(start);

，你会看到html的开头。

相关内容

最新更新

热门标签：