如何使用tikaparser解析Word Doc并将内容保存在XML或JSON中



我正在使用以下代码在Java

中解析Word文件
ParseContext pcontext = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
InputStream stream = TikaInputStream.get(new File(file.getAbsolutePath()));
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());             
parser.parse(stream, handler, metadata);

如何生成xml/json来保存内容?

您可以使用处理程序和元数据信息来获取DOC的内容。将这些信息设置在JSON或根据您的要求生成XML。

System.out.println("Contents of the document:" + handler.toString());
System.out.println(" " + metadata.get(Metadata.CONTENT_TYPE));
System.out.println("Sample Word Document"+ metadata.get(TikaCoreProperties.TITLE));
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
     System.out.println(name + ": " + metadata.get(name));
}

相关内容

  • 没有找到相关文章

最新更新