使用javaStringTokenizer、split或scanner提取字符串



我想从以下内容中提取<a: href></a: href>之间的字符串:

<a: href> https://0.0.0.1/abcd/openthis.pdf </a: href>

使用StringTokenizer、split或scanner
我正在尝试将StringTokenizer与<a: href></a: href>一起用作分隔符,但它不起作用。我试图逃离<>:,但这似乎不是问题所在。我的猜测是,它不会接受一个单词或短语作为分隔符。

您可以试试Regex。

试试这个正则表达式>s+(.*?)s+<'

请记住一件事,regex解决方案只有在您提取了这个字符串的情况下才能工作

< a: href > https://0.0.0.1/abcd/openthis.pdf < /a: href>

通常使用html parsers从相应的html代码中提取文本。

以下是不应该使用regex解析HTML的原因。

我会试试htmlclean。

HTMLCleaner是一个Java库,用于安全地解析web上的任何HTML并将其转换为格式良好的XML。它设计得小巧、快速、灵活且独立。HtmlCleaner可以在java代码中用作命令行工具或Ant任务。解析的结果是轻量级的文档对象模型,它可以很容易地转换为DOM或JDom等标准,或者以各种方式序列化为XML输出(紧凑、漂亮的打印等等)。

您可以使用XPath和htmlclean来获取xml/html标记中的内容。这是一个不错的
示例Xpath示例

相关内容

  • 没有找到相关文章

最新更新