SXSSFWorkbook.write to FileOutputStream写入巨大的文件



我正在尝试使用SXSSFWorkbook从头开始编写Excel电子表格。

wb = SXSSFWorkbook(500)
wb.isCompressTempFiles = true
sh = streamingWorkbook.createSheet(t.getMessage("template.sheet.name"))

一切都很好,但当我调用最后一个代码时:

val out = FileOutputStream(localPath)
wb.write(out)
out.close()
// dispose of temporary files backing this workbook on disk
wb.dispose()

我得到了一个巨大的excel文件,而不是我期望的压缩XLSX。我试着手动压缩文件,从一个120MB的文件我可以把它降到9MB。那么我错过了什么?

使用:Kotlin和

implementation group: 'org.apache.poi', name: 'poi-ooxml', version: '4.1.2'  // For `.xlsx` files

--更新1

我的印象是xlsx是包含xml数据的压缩文件[1]。POI通过XSSFWorkbook和SXSSFWorkbook输出的内容可以至少压缩10个数量级。我用这个简单的代码来演示:

fun main() {
val workbook = XSSFWorkbook()
writeRowsAndSave(workbook, "test.xlsx")
workbook.close()
val streamingWorkbook = SXSSFWorkbook(IN_MEMORY_ROWS_WINDOW_SIZE)
streamingWorkbook.isCompressTempFiles = true
writeRowsAndSave(streamingWorkbook, "test-streaming.xlsx")
streamingWorkbook.dispose()
}
private fun writeRowsAndSave(workbook: Workbook, fileName: String) {
val ROWS_COUNT = 2_000
val COLS_COUNT = 1_000
val sheet = workbook.createSheet("Test Sheet 1")
for (i in 1..ROWS_COUNT) {
val row = sheet.createRow(i)
println("Row $i")
for(j in 1..COLS_COUNT) {
row.createCell(j).setCellValue("Test $i")
}
}
FileOutputStream("./$fileName").use {
workbook.write(it)
}
}

这样每个文件产生5MB,压缩后大约有439KB(?!(。

SXSSFWorkbook默认使用内联字符串而不是共享字符串表。这意味着SXSSFWorkbook直接在工作表中写入文本,即使它是同一文本的多次。XSSFWorkbook和Excel的GUI都使用一个共享字符串表,在该表中,文本获得索引,同一文本只存储一次,然后在工作表中使用索引。但这应该不会对生成的*.xlsx的文件大小产生那么大的影响。

SXSSFWorkbook以及apache poi创建的所有其他Office Open XML格式的文件都是使用org.apache.commons.compress.archivers.zip.ZipArchiveOutputStream压缩的。它使用deflate作为压缩算法,Deflater.DEFAULT_COMPRESSION作为默认压缩级别。可以重写CCD_ 11的CCD_。但这也不应该对生成的*.xlsx的文件大小产生那么大的影响。

示例Java代码:

import java.io.File;
import java.io.OutputStream;
import java.io.FileOutputStream;
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import org.apache.commons.compress.archivers.zip.Zip64Mode;
import org.apache.commons.compress.archivers.zip.ZipArchiveOutputStream;
import java.util.zip.Deflater;
class CreateSXSSFDifferentCompression {
static SXSSFWorkbook createSXSSFWorkbook(int compressionLevel, int rowAccessWindowSize, 
boolean compressTmpFiles, boolean useSharedStringsTable) {
SXSSFWorkbook workbook = null;
if (compressionLevel != Deflater.DEFAULT_COMPRESSION) {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable) {
protected ZipArchiveOutputStream createArchiveOutputStream(OutputStream out) {
ZipArchiveOutputStream zos = new ZipArchiveOutputStream(out);
zos.setUseZip64(Zip64Mode.AsNeeded);  
zos.setLevel(compressionLevel);
return zos;
}    
}; 
} else {
workbook = new SXSSFWorkbook(null, rowAccessWindowSize, compressTmpFiles, useSharedStringsTable);
}
return workbook;
}
public static void main(String[] args) throws Exception {
SXSSFWorkbook workbook = null;
// uses Deflater.DEFAULT_COMPRESSION and inline strings
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, false); 
// uses Deflater.DEFAULT_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.DEFAULT_COMPRESSION, 500, true, true); 
// uses Deflater.BEST_COMPRESSION and inline strings
workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, false); 
// uses Deflater.BEST_COMPRESSION and shared strings table
//workbook = createSXSSFWorkbook(Deflater.BEST_COMPRESSION, 500, true, true); 
int ROWS_COUNT = 2000;
int COLS_COUNT = 1000;
Sheet sheet = workbook.createSheet("Test Sheet 1");
for (int i = 1 ; i <= ROWS_COUNT; i++) {
Row row = sheet.createRow(i);
//System.out.println("Row " + i);
for(int j = 1; j <= COLS_COUNT; j++) {
row.createCell(j).setCellValue("Test " + i);
}
}
FileOutputStream out = new FileOutputStream("./Excel.xlsx");
workbook.write(out);
out.close();
workbook.close();
workbook.dispose();
File file = new File("./Excel.xlsx");
System.out.println(file.length());
}
}

这导致Excel.xlsx文件大小为:

5031034字节当放气时。使用DEFAULT_COMPRESSION和内联字符串。

4972663字节当放气时。使用DEFAULT_COMPRESSION和共享字符串表。

4972915字节当放气时。使用BEST_COMPRESSION和内联字符串。

而且4966749字节当放气时。使用BEST_COMPRESSION和共享字符串表。

使用:Java 12apache poi 4.1.2Ubuntu Linux

对于一个2000行x 1000列的电子表格,我既不会称之为巨大,也不会称不同设置的影响很大。

而且条目压缩得非常好。

如果查看Excel.xlsxZIP存档,您会发现使用内联字符串时xl/worksheets/sheet1.xml112380273字节的未压缩大小。xl/sharedStrings.xml的未压缩大小是138字节,并且只包含非常基本的XML。

如果使用共享字符串表,则xl/worksheets/sheet1.xml的未压缩大小为68377273字节,xl/sharedStrings.xml的未压缩尺寸为49045字节,包含2000个条目。

如果Excel本身保存*.xlsx文件,则当内容相等时,它会创建具有大致相同文件大小的文件。因此Excel本身使用相同的压缩级别。

当然,当再次将Excel.xlsx存储到*.zip档案中时,可以对*.xlsx文件进行更多压缩。但这并不是Excel所期望的*.xlsx文件。

Microsoft在"开放式XML格式的好处是什么?">

压缩文件文件是自动压缩的,在某些情况下可以小75%。Open XML格式使用zip存储文档的压缩技术,提供潜在成本节省,因为它减少了存储文件和减少了通过电子邮件发送文件所需的带宽网络和互联网。当你打开一个文件时,它是自动解压缩。保存文件时,它会自动再次拉上拉链。您不必安装任何特殊的zip实用程序在Office中打开和关闭文件。

这里的重要部分是:

当您打开一个文件时,它会自动解压缩。当您保存文件,它会自动再次压缩。

这意味着,如果apache poi将使用除Microsoft Office本身之外的其他方法或压缩级别来压缩文件,那么Microsoft Office将无法使用apache poi创建的文件进行压缩。

因此,由于apache poi创建的文件Excel(Microsoft Office(可以直接打开,因此它使用与Excel(Microsoft Office(相同的压缩方法和压缩级别

相关内容

  • 没有找到相关文章

最新更新