使用内联 CSS 提取 HTML 文章文本



我想从抓取的html网页中提取文本。我正在使用优秀的开源样管库来做到这一点。但是,使用样管,我只能获得原始文本。除了原始文本之外,我还需要捕获带有原始源格式信息的文本,并内联所有 css 样式信息。

有没有办法用 Boilerpipe 或任何其他 Java 库(最好是开源)来做到这一点?

我应该首先说我从未使用过样板...甚至直到现在才听说过。

但是看看网站和javadocs,我会说你不能用它来提取带有样式的文本。 基本的概念问题是如何表示样式。 例如,BoilerpipeExtractor 接口有 4 个 getText 方法,每个方法都以 String 的形式返回提取的文本。 您将如何在字符串中表示样式? 您必须嵌入某种标记,但是...

  • 什么样的标记,以及
  • 您将如何将其与接口的描述相协调,该描述说这些方法返回"文本"......不是"带标记的文本"。

因此,我的评估是,使用样板提取带有样式的文本是完全不切实际的。 因此,请使用您已经确定的其他替代方案。

最新更新