我正在用Docx4j做一些测试。我需要做的是将复杂的Word文档(2-3页的文本,表格,项目符号列表,图像(转换为xhtml。
我举了这个例子:https://github.com/plutext/docx4j/blob/master/src/samples/docx4j/org/docx4j/samples/ConvertOutHtml.java
它工作正常,我只有 2 个担忧:
-
覆盖一个 Word 文档大约需要 30 秒。此行占用 95% 的计算时间:
wordMLPackage = Docx4J.load(new java.io.File(inputfilepath((;
最终目标是创建一个简单的Web应用程序,该应用程序获取Word文档(每次都不同(并提供回xhtml。用户不能等这么久。有什么可以提高性能的吗?为什么需要这么长时间(例如 Tika 快了数百倍(?目前我正在我的笔记本电脑Eclipse IDE上运行它,无论如何,速度很快的PC,您认为一旦运行服务器端会更好吗?
多谢。
加载 JAXB 上下文需要时间。 它通常完成一次,因此第一次加载会很慢。 也就是说,它不应该需要 30 秒! 在我老化的笔记本电脑上,大约需要 5 秒。
您可以启用日志记录以更深入地了解其中有多少是 JAXB 上下文初始化。