java解析html中的文本,不包含链接



我试图将jericho和jsoup库化。但不幸的是,解析后的文本中包含了链接。事实上,我正试图将html文本标记化以查找关键字,而这两个库产生了很多噪音,这真的很难处理。

public static String getPlainTextJsoup(String pageSrc) {
        Document doc = Jsoup.parse(pageSrc);
        return doc.body().text();
    }
public static String getPlainTextExtractJericho(String htmlSrc) {
        Source src = new Source(htmlSrc);
        return src.getTextExtractor().setIncludeAttributes(true).toString();
    }
 public static String getPlainText(String html) {
        Source htmlSource = new Source(html);
        Segment htmlSeg = new Segment(htmlSource, 0, html.length());
        Renderer htmlRend = new Renderer(htmlSeg);
       // System.out.println(htmlRend.toString());
        return htmlRend.toString();
    }

有了这个链接:

http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx

我听到的噪音如下:106134920巴尔的摩2c2f

所有这些都来自link/src等标签。

如何防止这些链接元素出现在解析后的文本中?

感谢

a的文本设置为""怎么样?

像这样:

public static void main(final String[] args) throws IOException
{
    Document document = Jsoup.connect("http://www.google.com").get();
    System.out.println(document.text());
    // replace the "a"s text
    for (Element element: document.getElementsByTag("a"))
    {
        element.text("");
    }
    System.out.println("Without a's");
    System.out.println(document.text());
}

它将打印:

Google Suche Bilder Maps Play YouTube News Gmail Drive Mehr » Webprotokoll | Einstellungen | Anmelden × Schneller im Internet unterwegs Installieren Sie Google Chrome Deutschland   Erweiterte SucheSprachoptionen Werben mit GoogleUnternehmensangebote+GoogleÜber GoogleGoogle.com © 2013 - Datenschutzerklärung & Nutzungsbedingungen
Without a's
Google Suche | | × Schneller im Internet unterwegs Deutschland   © 2013 -

相关内容

  • 没有找到相关文章