由于错误"Files with more than one child are not supported"，无法将文件另存为镶木地板？

Iḿ 使用 python 安装了 pyarrow 的 anaconda 发行版。起初，我有一个 166 列的数据集，在我第一次迭代数据时，我不得不将很多分解为虚拟变量，因此它增加到 915 列，在细化阶段，我不得不装箱一些数据，因此，增长到 1880 列。

自 915 年以来，我无法将文件另存为 HDF，所以我进入镶木地板，然后在最后阶段，实木复合地板因图例ArrowNotImplementedError: Fields with more than one child are not supported.而失败

幸运的是，我能够将其编写为 CSV，但这占用了我的驱动器中近 3GB 的空间我想知道此错误的含义。列是如此简单，要么是类别，要么是二进制(数字(。我有一些缺失的值，但我使用 XGBOOST 进行训练，所以那里没有问题。

有谁知道为什么突然通过增加列数镶木地板无法保存我的文件？我已经毫无问题地完成了 describe((、info(( 和许多其他操作，我什至在不保存数据的情况下训练了 xgboost 模型，但聚合所有这些列需要很长时间。

data.to_parquet("./data/5_all_data.parquet"( => 没有不起作用

ArrowNotImplementedError: Fields with more than one child are not supported.

data.to_hdf("./data/5_all_data.h5"， key="data"( => 没有不起作用

NotImplementedError: Cannot store a category dtype in a HDF5 dataset that uses format="fixed". Use format="table".

data.to_csv("./data/5_all_data.csv"( => 确实有效

data.info((

<class 'pandas.core.frame.DataFrame'>
Int64Index: 605847 entries, 630776 to 1049122
Data columns (total 1880 columns):
dtypes: category(118), float64(88), int64(38), uint8(1636)
memory usage: 1.6 GB

请提供任何帮助

问题是错误 msg 在这里没有帮助。就我而言，真正的问题是有 2 列具有完全相同的名称。在上下更改版本并更改列类型和一堆其他内容之后，我所要做的就是重命名列，我可以在任何版本的包中保存到镶木地板中。

相关内容

最新更新

热门标签：