只需要从HTML dom元素中提取内容



我需要从html元素(如<div>some text</div>)中提取内容在这个元素"some text"中,我只希望在输出中没有任何尖括号

例如

LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5  <body>
LineNo:6  Bodycontent Start
LineNo:7    <div>
LineNo:8      div content start.
LineNo:9        <div> 
LineNo:10          subdiv content
LineNo:11        </div>
LineNo:12      div content end
LineNo:13    </div>
LineNo:14     body content end
LineNo:15  </body>
LineNo:16</HTML>

我需要这样的输出:起始行号是标签开头的行号内容是该元素的内容,但不包括子元素的内容。

起始行号:3,content: Your Title Here content起始行号:5,内容:body content开始正文内容结束起始行号:7,内容:div内容起始。Div内容结束起始行号:9,内容:subdiv content

谢谢

可以将replaceAll与正则表达式<[^<]+>结合使用,并替换为空字符串

String myStr = ...;
String myStrExtracted = myStr.replaceAll("<[^<]+>", "");

相关内容

  • 没有找到相关文章

最新更新