我需要从html元素(如<div>some text</div>
)中提取内容在这个元素"some text"中,我只希望在输出中没有任何尖括号
LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5 <body>
LineNo:6 Bodycontent Start
LineNo:7 <div>
LineNo:8 div content start.
LineNo:9 <div>
LineNo:10 subdiv content
LineNo:11 </div>
LineNo:12 div content end
LineNo:13 </div>
LineNo:14 body content end
LineNo:15 </body>
LineNo:16</HTML>
我需要这样的输出:起始行号是标签开头的行号内容是该元素的内容,但不包括子元素的内容。
起始行号:3,content: Your Title Here content起始行号:5,内容:body content开始正文内容结束起始行号:7,内容:div内容起始。Div内容结束起始行号:9,内容:subdiv content
谢谢
可以将replaceAll
与正则表达式<[^<]+>
结合使用,并替换为空字符串
String myStr = ...;
String myStrExtracted = myStr.replaceAll("<[^<]+>", "");