由于错误"Files with more than one child are not supported",无法将文件另存为镶木地板?



Iḿ 使用 python 安装了 pyarrow 的 anaconda 发行版。起初,我有一个 166 列的数据集,在我第一次迭代数据时,我不得不将很多分解为虚拟变量,因此它增加到 915 列,在细化阶段,我不得不装箱一些数据,因此,增长到 1880 列。

自 915 年以来,我无法将文件另存为 HDF,所以我进入镶木地板,然后在最后阶段,实木复合地板因图例ArrowNotImplementedError: Fields with more than one child are not supported.而失败

幸运的是,我能够将其编写为 CSV,但这占用了我的驱动器中近 3GB 的空间 我想知道此错误的含义。 列是如此简单,要么是类别,要么是二进制(数字(。我有一些缺失的值,但我使用 XGBOOST 进行训练,所以那里没有问题。

有谁知道为什么突然通过增加列数镶木地板无法保存我的文件?我已经毫无问题地完成了 describe((、info(( 和许多其他操作,我什至在不保存数据的情况下训练了 xgboost 模型,但聚合所有这些列需要很长时间。

data.to_parquet("./data/5_all_data.parquet"( => 没有不起作用

ArrowNotImplementedError: Fields with more than one child are not supported.

data.to_hdf("./data/5_all_data.h5", key="data"( => 没有不起作用

NotImplementedError: Cannot store a category dtype in a HDF5 dataset that uses format="fixed". Use format="table".

data.to_csv("./data/5_all_data.csv"( => 确实有效

data.info((

<class 'pandas.core.frame.DataFrame'>
Int64Index: 605847 entries, 630776 to 1049122
Data columns (total 1880 columns):
dtypes: category(118), float64(88), int64(38), uint8(1636)
memory usage: 1.6 GB

请提供任何帮助

问题是错误 msg 在这里没有帮助。就我而言,真正的问题是有 2 列具有完全相同的名称。在上下更改版本并更改列类型和一堆其他内容之后,我所要做的就是重命名列,我可以在任何版本的包中保存到镶木地板中。

相关内容

最新更新