如何从样板文章提取器运行和获取文档统计信息


关于

样板的ArticleExtractor类的使用,我不太了解一些东西。 虽然,我对Java也很陌生,所以也许我对这个环境的基本知识是错误的。

无论如何,我正在尝试使用样板从我收集的一些原始 html 源中提取主要文章。html源文本存储在java.lang.String变量(我们称之为htmlstr)变量中,该变量具有网页的原始HTML内容。

我知道如何运行样管将提取的文本打印到输出窗口,如下所示:

java.lang.String htmlstr = "<!DOCTYPE.... ****html source**** ... </html>";
java.lang.String article = ArticleExtractor.INSTANCE.getText(htmlstr);
System.out.println(article);

但是,我不确定如何通过首先实例化 ArticleExtractor 类的实例,然后使用"TextDocument"输入数据类型调用它来运行 BP。TextDocument 数据类型本身就是从 BP 的"TextBlock"数据类型构造而来的,也许我做得不正确......

从我的 htmlstr 字符串变量构造文本文档类型变量的正确方法是什么?

所以我的问题是使用 BP 的文章提取器类的处理方法,而不是按照上面的示例调用 ArticleExtractor getText 方法。换句话说,我不确定如何使用

ArticleExtractor.process(TextDocument doc);

方法。

我的理解是,需要运行此 ArticleExtractor 进程方法,然后能够使用相同的"TextDocument doc"变量来获取文档统计信息,使用 BP 的

TextDocumentStatistics(TextDocument doc, boolean contentOnly) 

方法?我想使用统计数据来确定估计过滤的好坏。

有人可以帮助我解决任何代码示例吗?

用Jython编写的代码(转换为java应该很容易)

1)如何从HTML字符串中获取文本文档:

import org.xml.sax.InputSource as InputSource
import de.l3s.boilerpipe.sax.HTMLDocument as HTMLDocument
import de.l3s.boilerpipe.document.TextDocument as TextDocument
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput as BoilerpipeSAXInput
import de.l3s.boilerpipe.extractors.ArticleExtractor as ArticleExtractor
import de.l3s.boilerpipe.estimators.SimpleEstimator as SimpleEstimator
import de.l3s.boilerpipe.document.TextDocumentStatistics as TextDocumentStatistics
import de.l3s.boilerpipe.document.TextBlock as TextBlock
htmlDoc = HTMLDocument(rawHtmlString)
inputSource = htmlDoc.toInputSource() 
boilerpipeSaxInput = BoilerpipeSAXInput(inputSource)
textDocument = boilerpipeSaxInput.getTextDocument()

2) 如何使用文章提取器处理文本文档(从上面继续)

content = ArticleExtractor.INSTANCE.getText(textDocument)  

3)如何获取TextDocumentStatistics(从上面继续)

content_list = [] #replace python 'List' Object with ArrayList in java
content_list.append(TextBlock(content)) #replace with arrayList.add(TextBlock(content))
content_td = TextDocument(content_list)
content_stats = TextDocumentStatistics(content_td, True)#True for article content statistics only

注意:与样板 1.2.jar 库一起提供的 java 文档应该对将来的参考有所帮助

相关内容

  • 没有找到相关文章

最新更新