我正在使用以下代码在Java
中解析Word文件ParseContext pcontext = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
InputStream stream = TikaInputStream.get(new File(file.getAbsolutePath()));
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
parser.parse(stream, handler, metadata);
如何生成xml/json来保存内容?
您可以使用处理程序和元数据信息来获取DOC的内容。将这些信息设置在JSON或根据您的要求生成XML。
System.out.println("Contents of the document:" + handler.toString());
System.out.println(" " + metadata.get(Metadata.CONTENT_TYPE));
System.out.println("Sample Word Document"+ metadata.get(TikaCoreProperties.TITLE));
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}