为什么netCDF4文件大小与写入方式如此不同



我有几个文本文件存储不同时间和不同组的二维数据(相同形状(。现在,我想将这些数据转换为一个具有多个netCDF组的netCDF文件。每组的变量具有相同的维度,如:dimensions:{time=62, lat=118, lon=104}。我用三种方式写数据。代码是用python3.7和netCDF4包编写的。

from netCDF4 import Dataset, date2num, date2index
import numpy as np
import os
from datetime import datetime, timedelta

def initialize(fpath):
rootgrp = Dataset(fpath, 'w')
rootgrp.createDimension('time', 62)
rootgrp.createDimension('lat', 118)
rootgrp.createDimension('lon', 104)
times = rootgrp.createVariable('time', 'f8', ('time', ))
lats = rootgrp.createVariable('lat', 'f4', ('lat', ))
lons = rootgrp.createVariable('lon', 'f4', ('lon', ))
lats.units = 'degrees north'
lons.units = 'degrees east'
times.units = 'hours since 1900-01-01 00:00:00.0'
times.calendar = 'gregorian'
datetimes = [
datetime(2020, 3, 1, 8) + n * timedelta(hours=12) for n in range(62)
]
lats[:] = np.linspace(-40, 40, 118)
lons[:] = np.linspace(80, 160, 104)
times[:] = date2num(datetimes, times.units, times.calendar)
return rootgrp

def write(fpath, data, **kwargs):
if not os.path.exists(fpath):
rootgrp = initialize(fpath)
else:
rootgrp = Dataset(fpath, 'r+')
grppath = kwargs['grppath']
varname = kwargs['varname']
grp = rootgrp.createGroup(grppath)
if varname in grp.variables:
var = grp.variables[varname]
else:
var = grp.createVariable(varname,
'f4', ('time', 'lat', 'lon'),
zlib=True,
least_significant_digit=1)
times = rootgrp.variables['time']
datetimes = kwargs.get('datetimes', None)
if datetimes is None:
time_index = slice(None)
else:
time_index = date2index(datetimes, times, calendar=times.calendar)
print(var[time_index, :, :].shape)
print(data.shape)
var[time_index, :, :] = data
rootgrp.close()

def get_data(groups, datetimes):
shape = (118, 104)
size = shape[0] * shape[1]
all_group = {}
for group in groups:
data_list = []
for time in datetimes:
data = np.random.random(size).reshape(shape)
data_list.append(data)
all_group[group] = data_list
return all_group

def way1(dateimes, grouped_data):
for i, time in enumerate(datetimes):
for group, data in grouped_data.items():
write('way1.nc',
data[i],
grppath=group,
varname='random',
datetimes=time)

def way2(datetimes, grouped_data):
for group in grouped_data:
all_data = np.stack(grouped_data[group])
write('way2.nc',
all_data,
grppath=group,
varname='random',
datetimes=datetimes)

def way3(datetimes, grouped_data):
for group, data in grouped_data.items():
for i, time in enumerate(datetimes):
write('way3.nc',
data[i],
grppath=group,
varname='random',
datetimes=time)

groups = list('abcdefghijklmnopqrstuvwxyz')
datetimes = [
datetime(2020, 3, 1, 8) + n * timedelta(hours=12) for n in range(62)
]
grouped_data = get_data(groups, datetimes)
way1(datetimes, grouped_data)
way2(datetimes, grouped_data)
way3(datetimes, grouped_data)

三种方式写入的文件都是相同的(变量的ChunkSize=(62U,118U,104U((,除了文件大小。

方式1:495324392字节(磁盘的503.3MB(

方式2:15608108字节(磁盘的16.7 MB(

方式3:15608108字节(磁盘的16.7 MB(

我想知道是否有人能为我解释一下。谢谢

不是一个完整的答案,但我现在必须睡觉,并想分享我迄今为止的发现。h5ls的输出确实表明,所有数据集的大小和块都是相同的,所以这不是问题所在。

在程序中,您可以测试netCDF文件或变量是否存在,然后只在它还不存在的情况下创建它。然而,你不测试组,你总是创建它们。通过将grp = rootgrp.createGroup(grppath)更改为以下行,way1.nc的大小减小到19MB。

if grppath in rootgrp.groups:
grp = rootgrp[grppath]
else:
grp = rootgrp.createGroup(grppath)

从HDF5文件中删除对象时,文件大小保持不变(请参见第5.5.2节。从HDF5用户指南的文件和回收空间中删除数据集(。因此,我怀疑一次又一次地创建一个同名组会分配存储空间,但不会释放旧组的磁盘空间,从而造成内存泄漏。我不知道为什么这种情况只发生在第1种方式,而不是第3种方式。

此外,我还不明白为什么way1.nc仍然比其他的(15MB(稍大(19MB(。

最后,因为只有在netCDF文件不存在的情况下才调用initialize函数,所以在启动程序之前,必须小心删除上次运行的输出。您很容易忘记这一点,所以我建议您修改代码,使initialize始终在程序启动时执行。

最新更新