我正在尝试解析具有唯一类属性的div元素的HTML网页。我需要从中提取信息。它是多个div 元素,所以我需要遍历 DOM。但我无法识别div 元素。
切换到Jsoup,真的很棒!
在我看来,你应该使用jsoup。它是Java HTML解析器。下面列出了它的功能。
- 能够从网络获取网页
- 非常简单明了的接口
- 用于标记 HTML 元素的 CSS 选择器。
例如,您希望获取具有类foo
的 DIV 元素
Document doc = Jsoup.connect("http://website.com/").get();
Elements divs = doc.select("div.foo");
如果使用 HtmlCleaner 的 JDom 序列化程序,则可以使用 XPath 表达式来定位div。