只需要从HTML dom元素中提取内容

我需要从html元素(如<div>some text</div>)中提取内容在这个元素"some text"中，我只希望在输出中没有任何尖括号

例如

LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5  <body>
LineNo:6  Bodycontent Start
LineNo:7    <div>
LineNo:8      div content start.
LineNo:9        <div> 
LineNo:10          subdiv content
LineNo:11        </div>
LineNo:12      div content end
LineNo:13    </div>
LineNo:14     body content end
LineNo:15  </body>
LineNo:16</HTML>

我需要这样的输出:起始行号是标签开头的行号内容是该元素的内容，但不包括子元素的内容。

起始行号:3,content: Your Title Here content起始行号:5，内容:body content开始正文内容结束起始行号:7，内容:div内容起始。Div内容结束起始行号:9，内容:subdiv content

谢谢

可以将replaceAll与正则表达式<[^<]+>结合使用，并替换为空字符串

String myStr = ...;
String myStrExtracted = myStr.replaceAll("<[^<]+>", "");

相关内容

最新更新

热门标签：