我正在使用Tika*解析PDF文件。检索文档的文本没有问题,但我不知道如何提取文本:
- 下划线
- 突出显示
- 划掉
Adobe Writer为您提供了不同的文本编辑选项,但我看不出它们"隐藏"在哪里。
是否有提取这些元数据信息的解决方案?(下划线、高亮…)
你知道Tika是否能够提取这些数据吗?
*http://tika.apache.org/
哇。4年是等待答案的漫长时间,我想你现在已经找到了解决方案。无论如何,为了那些想访问这个链接的人,答案是肯定的。Apache Tika不仅可以提取文档中的文本,还可以提取格式(例如粗体、斜体)。这是我的场景:
//inputStream is the document you wish to parse from.
AutoDetectParser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
Metadata metadata = new Metadata();
parser.parse(inputStream,handler,metadata);
System.out.println(handler.toString());
print语句打印文档的XML。只要做一些清理XML(实际上是HTML标记)的工作,就会留下像<b>文本<b> 对于粗体文本和<i>文本</i表示斜体文本。然后你就可以找到渲染它的方法了。祝你好运。