我正在使用GCP顶点AI工作台的JupyterLab虚拟笔记本实例。
我正在读取20亿行数据,其中每行由3列组成每个8字节
我正在一次读取1亿行数据并将其连接到Pandas数据框。
突然,笔记本变得无响应,出现502错误。
我意识到虚拟机崩溃了。
以下是虚拟机的规格:n1-标准64240gb RAM100gb硬盘
有一次,我成功地达到了20亿行。但突然,令我沮丧的是,它崩溃了,错误。
Google文档只提到重启内核。这并不容易,因为读取20亿行数据需要1个多小时。这意味着超过一个小时的工作被浪费了。
是什么导致这个错误?为什么错误发生得如此不一致?导致这个程序崩溃的错误信息在哪里?或者这是一个与pandas数据框架有关的错误?我正在创建一个有20亿行的数据框。如果熊猫不能处理这么大的行,它应该简单地导致运行时错误,而不是导致虚拟机崩溃。
Thanks in advance
发生此错误是因为代码运行到端口重叠。它应该是固定的,因为停止内核的部分代码在github中发生了变化,变化是将restart_kernel
替换为shutdown_kernel
。
我们还需要确保在关闭内核时容器已被清理。
可以按照以下步骤设置:
- 创建笔记本
- 运行几个单元格
- 杀死内核
- 启动新内核