解析来自 html 文档的数据(<meta property='ABC' content= "DEF" />)



如何解析网站中的java特定文本?例如,如果网站的网页中有以下内容:<meta property='ABC' content="DEF" />。我想搜索"ABC"并找到"DEF"。我如何制作这样的函数?我没有html的经验,也没有解析信息的经验。

感谢

我喜欢JSOUP,因为它添加了很多不错的功能。。。

JSoup处理了大量的文档拉取,如果你想拉取信息,你可以使用CSS选择器来访问页面中的元素。

至于对元标签的支持,我不能写任何测试代码,但这个关于堆栈溢出的例子谈到了这一点

我不太懂Java,但这听起来是一个使用正则表达式的好地方。对于像这样的简单文本搜索,它非常简单。要搜索"ABC",只需使用正则表达式ABC。您可以使用类似ABC|DEF的内容搜索"ABC"或"DEF"的实例。我不确定你到底想要什么,但如果你澄清,我可以帮更多的忙。

Java和大多数编程语言一样,有一些类来评估这些表达式。

import java.util.regex.Pattern;

import java.util.regex.Matcher;

有关如何使用这些正则表达式的信息,请参阅此链接。它提供了您所需的几乎所有信息,包括理解正则表达式所需的信息。

要了解有关正则表达式语法的更多详细信息,请访问此处。

还有其他方法可以通过字符串搜索来找到模式,但正则表达式在所有语言中都是统一的,并且随着您寻找的模式变得越来越复杂,正则表达式变得越来越有用。

最新更新