小贝子编程

由Pandas的非唯一列索引的DataFrame到Panel

本文关键字：DataFrame 索引 Panel 唯一 Pandas python dataframe panels pandas
更新时间 : 2023-08-27
英文 : DataFrame to Panel indexed by nonunique column with Pandas

下面的代码应该做我想做的事情，但在完成20%的循环时，它需要10gb的ram。

# In [4]: type(pd)
# Out[4]: pandas.sparse.frame.SparseDataFrame
memid = unique(pd.Member)
pan = {}
for mem in memid:
    pan[mem] = pd[pd.Member==mem]
goal = pandas.Panel(pan)

我在这里创建了一个GitHub问题。

https://github.com/wesm/pandas/issues/663

我确信我发现NumPyndarray视图之间的循环引用导致了内存泄漏。刚刚提交了修复：

https://github.com/wesm/pandas/commit/4c3916310a86c3e4dab6d30858a984a6f4a64103

你能从源代码安装并让我知道这是否解决了你的问题吗？

顺便说一句，你可能会尝试使用SparsePanel而不是Panel，因为Panel会将所有子数据帧转换为密集形式。

最后，您可以考虑使用groupby作为SparseDataFrame的O(N * M)斩波的替代方案。更短：

pan = dict(pd.groupby('Member'))

由Pandas的非唯一列索引的DataFrame到Panel

相关内容

最新更新

热门标签：