小贝子编程

如何使用tikaparser解析Word Doc并将内容保存在XML或JSON中

本文关键字：存在保存 XML JSON tikaparser 何使用解析 Word Doc java parsing apache-tika
更新时间 : 2023-09-07
英文 : how to parse a word doc using Tikaparser and save content in an XML or JSON

我正在使用以下代码在Java

中解析Word文件

ParseContext pcontext = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
InputStream stream = TikaInputStream.get(new File(file.getAbsolutePath()));
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());             
parser.parse(stream, handler, metadata);

如何生成xml/json来保存内容？

您可以使用处理程序和元数据信息来获取DOC的内容。将这些信息设置在JSON或根据您的要求生成XML。

System.out.println("Contents of the document:" + handler.toString());
System.out.println(" " + metadata.get(Metadata.CONTENT_TYPE));
System.out.println("Sample Word Document"+ metadata.get(TikaCoreProperties.TITLE));
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
     System.out.println(name + ": " + metadata.get(name));
}

如何使用tikaparser解析Word Doc并将内容保存在XML或JSON中

相关内容

最新更新

热门标签：