如何从Java格式的文件(word文档、excel)中读取数据



我有一个文件格式化.doc。里面有一些文本。现在我为文档中的文本添加了一些格式。我在第一段开头加了空格,在一些单词下面加了下划线,用粗体写了一些单词,并对该段进行了居中对齐。

在我的应用程序中,我尝试使用ApachePOI读取文件,然后使用iText以PDF格式显示。但是,Apache POI返回的文本是原始数据。即没有任何格式化。

Java中有什么方法可以读取带有所有格式的文件的文本吗?

我认为您的最佳选择是使用Apache Tika。它使用ApachePOI和其他一些库,并提供格式化提取等功能。

最新更新