使用JSOUP库从Android网站获取HTML表的数据



我正在处理一个应用程序,我正在从一个或两个网站解析一些数据。幸运的是,我是为一些目标数据而做的,但事实并非如此。现在,我正在使用JSOUP来解析网站的数据,我使用相同的JSOUP格式来获取与应用程序第1阶段相同的数据的数据,但是这一次没有什么可以拿出空白的ArrayList。我检查了两个HTML代码,两者都有一些差异。

在我的阶段1中,我使用它的类解析表,然后得到该表的各自的表格。在第二阶段,表格的格式及其tr&TD是不同的,所以我努力弄清楚这一点。我正在发布我想从中获取数据的HTML代码。

<div class="view-content">
  <table class="views-table cols-3">
    <thead>
    </thead>
    <tbody>
      <tr class="odd views-row-first views-row-last">
        <td class="views-field views-field-counter">
          1 </td>
        <td class="views-field views-field-body">
          <p>some text here</p>
        </td>
        <td class="views-field views-field-field-notif-pdf">
          <a href="https://someurl.pdf" target="_blank"></a> Size :- 1.85 MB, Language:- English</td>
      </tr>
    </tbody>
  </table>
</div>

我想要上面表标签内部的数据,并且我有问题来弄清楚它如何使用TR和TD中的所有类。任何帮助或建议都将不胜感激。

谢谢!

您可以在jsoup中使用选择器:

 File input = new File("path_to_html/test.html");
        Document doc = Jsoup.parse(input, StandardCharsets.UTF_8.name());
///select table body
        Element tbody = doc.select("tbody").first();

其他示例:

https://jsoup.org/cookbook/extracting-data/selector-syntax

最新更新