我试图将jericho和jsoup库化。但不幸的是,解析后的文本中包含了链接。事实上,我正试图将html文本标记化以查找关键字,而这两个库产生了很多噪音,这真的很难处理。
public static String getPlainTextJsoup(String pageSrc) {
Document doc = Jsoup.parse(pageSrc);
return doc.body().text();
}
public static String getPlainTextExtractJericho(String htmlSrc) {
Source src = new Source(htmlSrc);
return src.getTextExtractor().setIncludeAttributes(true).toString();
}
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
有了这个链接:
http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx
我听到的噪音如下:106134920巴尔的摩2c2f
所有这些都来自link/src等标签。
如何防止这些链接元素出现在解析后的文本中?
感谢
将a
的文本设置为""
怎么样?
像这样:
public static void main(final String[] args) throws IOException
{
Document document = Jsoup.connect("http://www.google.com").get();
System.out.println(document.text());
// replace the "a"s text
for (Element element: document.getElementsByTag("a"))
{
element.text("");
}
System.out.println("Without a's");
System.out.println(document.text());
}
它将打印:
Google Suche Bilder Maps Play YouTube News Gmail Drive Mehr » Webprotokoll | Einstellungen | Anmelden × Schneller im Internet unterwegs Installieren Sie Google Chrome Deutschland Erweiterte SucheSprachoptionen Werben mit GoogleUnternehmensangebote+GoogleÜber GoogleGoogle.com © 2013 - Datenschutzerklärung & Nutzungsbedingungen
Without a's
Google Suche | | × Schneller im Internet unterwegs Deutschland © 2013 -