如何使用jerichohtml解析器从网站获取数据

我在java中使用的是jerichohtml解析器。我想从网站上获取数据。网站中的html内容是这样的。。。。

<div class="class_div">
   <div class="class_div2">All contents...</div>`
     <span class="equals">Content 1</span>
     <span class="equals">Content 2</span>
     <span class="equals">Content 3</span>
     <span class="equals">Content 4</span>
 </div>

我想获取内容1、内容2、内容3、内容4。如何取这个？

我正在使用此代码

String sourceUrlString="<website url>";
if (sourceUrlString.indexOf(':')==-1)
sourceUrlString="http:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
Element bodyContent = source.getElementByClass("equals");`

问题在哪里？用你的代码你可以得到每个Element-用那些你得到它们的文本：

Source source = new Source(/* ... */);
List<Element> elements = source.getAllElementsByClass("equals");
for( Element element : elements )
{
    /*
     * 'element.getTextExcrator().toString()' returns the text of the element
     */
    System.out.println(element.getTextExtractor().toString());
}

输出：

内容1
内容2
内容3
内容4

相关内容

最新更新

热门标签：