public class Test {
public static void main(String[] args) throws Exception{
String data;
TikaConfig tikaConfig = TikaConfig.getDefaultConfig();
Metadata metadata = new Metadata();
ContentHandler handler;
try (InputStream stream = new BufferedInputStream(new FileInputStream(new File("E:\AllTypes\PPT\Presentation1.pptx")))) {
Detector detector = tikaConfig.getDetector();
Parser parser = tikaConfig.getParser();
MediaType type = detector.detect(stream, metadata);
metadata.set(Metadata.CONTENT_TYPE, type.toString());
handler = new BodyContentHandler(-1);
parser.parse(stream, handler, metadata, new ParseContext());
data = handler.toString();
System.out.println(data);
}
}
}
我只有你好世界! 在输入ppt所以我只想要你好世界! 输出: [Content_Types].xml
_rels/.rels
ppt/slides/_rels/slide1.xml.rels
ppt/_rels/presentation.xml.rels
PPT/演示文稿.xml
PPT/幻灯片/幻灯片1.xml 世界您好!
ppt/slideLayouts/_rels/slideLayout6.xml.rels
ppt/slideLayouts/_rels/slideLayout7.xml.rels
ppt/slideLayouts/_rels/slideLayout9.xml.rels
ppt/slideLayouts/_rels/slideLayout10.xml.rels
ppt/slideLayouts/_rels/slideLayout8.xml.rels
ppt/slideLayouts/_rels/slideLayout11.xml.rels
ppt/slideLayouts/_rels/slideLayout1.xml.rels
ppt/slideLayouts/_rels/slideLayout2.xml.rels
ppt/slideLayouts/_rels/slideLayout3.xml.rels
ppt/slideLayouts/_rels/slideLayout4.xml.rels
ppt/slideMasters/_rels/slideMaster1.xml.rels
ppt/slideLayouts/slideLayout11.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout10.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout3.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout2.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout1.xml 单击以编辑主标题样式 单击以编辑主字幕样式 1/30/2018 ‹#›
ppt/slideMasters/slideMaster1.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout4.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout5.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 单击以编辑主页文本样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout6.xml 单击以编辑主标题样式 1/30/2018 ‹#›
ppt/slideLayouts/slideLayout7.xml 2018/1/30 ‹#›
ppt/slideLayouts/slideLayout8.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 第二级 第三级 第四级 第五级 单击以编辑主页文本样式 2018/1/30 ‹#›
ppt/slideLayouts/slideLayout9.xml 单击以编辑主页标题样式 单击以编辑主页文本样式 1/30/2018 ‹#›
ppt/slideLayouts/_rels/slideLayout5.xml.rels
ppt/主题/主题1.xml
文档道具/缩略图.jpeg
ppt/presProps.xml
ppt/tableStyles.xml
ppt/viewProps.xml
docProps/core.xml PowerPoint演示文稿 srinuk srinuk 1 2018-01-30T10:19:34Z 2018-01-30T10:22:05Z
文档道具/应用程序.xml 2 3 Microsoft办公室 PowerPoint 宽屏 1 1 0 0 0 假 使用的字体 3 主题 1 幻灯片标题 1 阿里尔·卡利布里 卡利布里灯办公室主题 PowerPoint 演示文稿 假 假 假 假 15.0000
你可以尝试使用tika-app.jar.只需使用Tika提取文本功能。
Tika tika = new Tika();
File file = new File("path");
String str = tika.parseToString(file);
此代码仅分析文件中的文本内容。