Tika-如何从PDF文本中提取文本:下划线、高亮显示、划掉

我正在使用Tika*解析PDF文件。检索文档的文本没有问题，但我不知道如何提取文本：

下划线
突出显示
划掉

Adobe Writer为您提供了不同的文本编辑选项，但我看不出它们"隐藏"在哪里。

是否有提取这些元数据信息的解决方案？（下划线、高亮…）

你知道Tika是否能够提取这些数据吗？

*http://tika.apache.org/

哇。4年是等待答案的漫长时间，我想你现在已经找到了解决方案。无论如何，为了那些想访问这个链接的人，答案是肯定的。Apache Tika不仅可以提取文档中的文本，还可以提取格式（例如粗体、斜体）。这是我的场景：

    //inputStream is the document you wish to parse from.
    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();
    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print语句打印文档的XML。只要做一些清理XML（实际上是HTML标记）的工作，就会留下像<b>文本<b> 对于粗体文本和<i>文本</i表示斜体文本。然后你就可以找到渲染它的方法了。祝你好运。

相关内容

最新更新

热门标签：