在python中创建一个巨大的缺席存在矩阵有什么神奇的方法吗?pd。交叉表和pd。pivot_table失败因为内存需求。
我有一个非常大的数据集,就像这样:
<表类>
人
的
tbody><<tr>彼得 自行车 彼得汽车 珍妮自行车 珍妮飞机 表类>
用于数据科学的计算机有时具有荒谬的高RAM量(我想我以前见过1tb的计算机…)
如果你没有那么多的内存,那么我认为解决这个问题的唯一方法是利用硬盘驱动器…
我会说,处理数据,将其作为结构化数据写入硬盘驱动器,并在读取时循环,假设每次50mb,以检查名称是否已经添加到文件中,并修改它。