有没有办法在 h5py 中一次获取所有组中的数据集?

我有数据存储在.h5中。我使用以下代码来显示组名，并调用其中一个组 (Event_[0]) 以查看其中的内容：

with h5py.File(data_path, 'r') as f:
ls = list(f.keys())
print('List of datasets: n', ls)
data = f.get('group_1')
dataset1 = np.array(data)
print('Shape of dataset1: n', dataset1.shape)
f.close()

它工作正常，但我有大约 2000 个组，每个组都有一个数据集。如何避免为每个组编写相同的代码？有没有办法得到("所有组")？

编辑：再举一个例子：我使用

f['Event_[0]'][()]

以查看一个组。这也可以应用于多个组吗？

只需迭代键列表：

with h5py.File(data_path, 'r') as f:
alist = []
ls = list(f.keys())
print('List of datasets: n', ls)
for key in ls:
group = f.get(key)
dataset = group.get(datasetname)[:]
print('Shape of dataset: n', dataset.shape)
alist.append(dataset)
# don't need f.close() in a with

没有allgroups;有iter和visit方法，但它们最终会做同样的事情 - 对于文件中的每个组，获取所需的数据集。h5py文档应该是完整的，没有隐藏的方法。该visit是递归的，类似于用于访问目录和文件的 Python 操作系统功能。

在h5py，文件和组的行为类似于 Pythondicts。它是行为类似于numpy数组的数据集。

如果您知道将始终拥有此数据架构，则可以使用键(如上一个答案所示)。这意味着只有根级别的组，数据集是每个组下的唯一对象。当您不知道文件的确切内容时，"访问者"功能非常方便。

有2个访客功能。他们visit()和visititems().每个对象递归遍历对象树，为每个对象调用访问者函数。唯一的区别是visit的可调用函数接收 1 个值：name，而对于visititems，它接收 2 个值：name和node(一个 h5py 对象)。名称就是一个对象的名称，而不是它的完整路径名。我更喜欢visititems有两个原因：1)拥有节点对象允许您对对象类型进行测试(如下所示)，以及2)确定路径名需要您知道路径或使用对象的name属性来获取它。

下面的示例创建一个简单的 HDF5 文件，创建几个组和数据集，然后关闭该文件。然后，它会在读取模式下重新打开，并使用visititems()遍历文件对象树。(注意：访问者函数可以具有任何名称，并且可以与任何对象一起使用。它从文件结构中的该点递归遍历。

此外，使用with / as:构造时不需要f.close()。

import h5py
import numpy as np
def visit_func(name, node) :
print ('Full object pathname is:', node.name)
if isinstance(node, h5py.Group) :
print ('Object:', name, 'is a Groupn')
elif isinstance(node, h5py.Dataset) :
print ('Object:', name, 'is a Datasetn')
else :
print ('Object:', name, 'is an unknown typen')
arr = np.arange(100).reshape(10,10)
with h5py.File('SO_63315196.h5', 'w') as h5w:
for cnt in range(3):
grp = h5w.create_group('group_'+str(cnt)) 
grp.create_dataset('data_'+str(cnt),data=arr) 

with h5py.File('SO_63315196.h5', 'r') as h5r:     
h5r.visititems(visit_func)

相关内容

最新更新

热门标签：