在Python中创建一个非常大的缺席/在场SPARSEE矩阵



在python中创建一个巨大的缺席存在矩阵有什么神奇的方法吗?pd。交叉表和pd。pivot_table失败因为内存需求。

我有一个非常大的数据集,就像这样:

<表类> 人 的 tbody><<tr>彼得自行车彼得汽车珍妮自行车珍妮飞机

用于数据科学的计算机有时具有荒谬的高RAM量(我想我以前见过1tb的计算机…)

如果你没有那么多的内存,那么我认为解决这个问题的唯一方法是利用硬盘驱动器…

我会说,处理数据,将其作为结构化数据写入硬盘驱动器,并在读取时循环,假设每次50mb,以检查名称是否已经添加到文件中,并修改它。

相关内容

  • 没有找到相关文章

最新更新