Tika-如何从PDF文本中提取文本:下划线、高亮显示、划掉



我正在使用Tika*解析PDF文件。检索文档的文本没有问题,但我不知道如何提取文本:

  • 下划线
  • 突出显示
  • 划掉

Adobe Writer为您提供了不同的文本编辑选项,但我看不出它们"隐藏"在哪里。

是否有提取这些元数据信息的解决方案?(下划线、高亮…)

你知道Tika是否能够提取这些数据吗?

*http://tika.apache.org/

哇。4年是等待答案的漫长时间,我想你现在已经找到了解决方案。无论如何,为了那些想访问这个链接的人,答案是肯定的。Apache Tika不仅可以提取文档中的文本,还可以提取格式(例如粗体、斜体)。这是我的场景:

    //inputStream is the document you wish to parse from.
    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();
    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print语句打印文档的XML。只要做一些清理XML(实际上是HTML标记)的工作,就会留下像<b>文本<b> 对于粗体文本和<i>文本</i表示斜体文本。然后你就可以找到渲染它的方法了。祝你好运。

相关内容

  • 没有找到相关文章

最新更新