这就是我的数据帧的样子。第一列是单个int。第二列是512个int的单个列表。

IndexID Ids
1899317 [0, 47715, 1757, 9, 38994, 230, 12, 241, 12228...
22861131    [0, 48156, 154, 6304, 43611, 11, 9496, 8982, 1...
2163410 [0, 26039, 41156, 227, 860, 3320, 6673, 260, 1...
15760716    [0, 40883, 4086, 11, 5, 18559, 1923, 1494, 4, ...
12244098    [0, 45651, 4128, 227, 5, 10397, 995, 731, 9, 3...

我把它保存到hdf，并尝试使用打开它

df.to_hdf('test.h5', key='df', data_columns=True)
h3 = h5py.File('test.h5')

当我列出密钥时，我看到4个密钥

h3['df'].keys()

KeysViewHDF5[‘axi0’，‘axis1’，‘block0_items’，‘block 0_values’]

Axis1看到包含第一列的值

h3['df']['axis1'][0:5]

阵列([1899317228611312163410 157607161224098，

但是，似乎没有来自第二列的数据。确实有另一列包含其他数据

h3['df']['block0_values'][0][0:5]

但这似乎与第二列中的任何数据都不对应

数组([128，41449，1，0]，dtype=uint8(

目的

我最终尝试创建一个内存映射的数据存储，它使用特定的索引检索数据。

所以类似的东西

h3['df']['workingIndex'][22861131, 15760716]

将检索

[0, 48156, 154, 6304, 43611, 11, 9496, 8982, 1...],
[0, 40883, 4086, 11, 5, 18559, 1923, 1494, 4, ...

问题是您试图序列化Python列表的Pandas系列，但它不是矩形的(锯齿状(。

Pandas和HDF5主要用于矩形(立方体、超立方体等(数据，而不是锯齿状列表。

您在呼叫to_hdf()时看到此警告了吗？

PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block0_values] [items->['Ids']]

它试图告诉你的是，列表列表并不能以直观、高性能的方式得到支持。如果您在输出文件上运行像h5dump这样的HDF5可视化工具，您就会发现问题所在。该索引(表现良好(如下所示：

DATASET "axis1" {
DATATYPE  H5T_STD_I64LE
DATASPACE  SIMPLE { ( 5 ) / ( 5 ) }
DATA {
(0): 1899317, 22861131, 2163410, 15760716, 12244098
}
ATTRIBUTE "CLASS" {
DATA {
(0): "ARRAY"
}
}

但是值(列表列表(看起来是这样的：

DATASET "block0_values" {
DATATYPE  H5T_VLEN { H5T_STD_U8LE}
DATASPACE  SIMPLE { ( 1 ) / ( H5S_UNLIMITED ) }
DATA {
(0): (128, 5, 149, 164, ...)
}
ATTRIBUTE "CLASS" {
DATA {
(0): "VLARRAY"
}
}
ATTRIBUTE "PSEUDOATOM" {
DATA {
(0): "object"
}
}

正在发生的事情正是PerformanceWarning警告您的：

> PyTables will pickle object types that it cannot map directly to c-types

您的列表列表正在被腌制并存储为H5T_VLEN，它只是一个字节块。

以下是一些可以解决此问题的方法：

将每一行存储在HDF5中的一个单独键下。也就是说，每个列表都将存储为一个数组，并且它们都可以具有不同的长度。HDF5没有问题，因为它支持一个文件中任意数量的密钥
将数据更改为矩形，例如在较短的列表中填充零。请参阅：Pandas将列表的列拆分为多列
使用h5py以您喜欢的任何格式写入数据。它比Pandas/PyTables更灵活，可以创建更简单(但功能更强大(的HDF5文件。这里有一个例子(它显示h5py实际上可以存储锯齿状数组，尽管它并不漂亮(：用h5py存储多维可变长度数组

在h5py中尝试打开熊猫创建的hdf时缺少列

目的

相关内容

最新更新

热门标签：