如何使用Jericho HTML解析器在特定标签之间获取文本和其他标签?



我有一个HTML文件,其中包含一个特定的标签,例如<TABLE cellspacing=0>和结束标签是</TABLE>。现在我想要这些标签之间的所有内容。我在Java中使用Jericho HTML解析器来解析HTML。是否有可能获得文本&在Jericho解析器中的特定标签之间的其他标签?

例如:

<TABLE  cellspacing=0>    
  <tr><td>HELLO</td>  
  <td>How are you</td></tr>
</TABLE>

答:

<tr><td>HELLO</td>  
<td>How are you</td></tr> 

找到表的Element后,只需调用getContent(). tostring()。下面是一个使用示例HTML的快速示例:

Source source = new Source("<TABLE  cellspacing=0>n" +
    "  <tr><td>HELLO</td>  n" +
    "  <td>How are you</td></tr>n" +
    "</TABLE>");
Element table = source.getFirstElement();
String tableContent = table.getContent().toString();
System.out.println(tableContent);
输出:

    <tr><td>HELLO</td>  
    <td>How are you</td></tr>

然后,我遍历了所有元素的代码并显示在屏幕上。也许能帮到你。

        List<Element> elementListTd = source.getAllElements(HTMLElementName.TD);
        //Scroll through the list of elements "td" page
        for (Element element : elementListTd) {
            if (element.getAttributes() != null) {
                String td = element.getAllElements().toString();
                String tag = "td";
                System.out.println("TD: " + td);
                System.out.println(element.getContent());
                String conteudoAtributo = element.getTextExtractor().toString();
                System.out.println(conteudoAtributo);
                if (td.contains(palavraCompara)) {
                    tabela.add(conteudoAtributo);
                }
            }

相关内容

  • 没有找到相关文章

最新更新