Datalab内核由于数据集大小而崩溃.负载平衡一个选项



我当前正在运行具有最高内存的虚拟机,n1-highmem-32(32 VCPU,208 GB内存)。

我的数据集约为90个演出,但将来有可能成长。

数据中存储在许多Zipped CSV文件中。我将数据加载到一个稀疏的矩阵中,以预成一些维度降低和聚类。

datalab内核在一台计算机上运行。由于您已经在208GB RAM计算机上运行,因此您可能必须切换到分布式系统来分析数据。

如果您在数据上进行的操作可以表示为SQL,我建议将数据加载到BigQuery中,Datalab对此有很多支持。否则,您可能需要将处理管道转换为使用DataFlow(具有Python SDK)。根据您的操作的复杂性,其中任何一个都可能很困难。

最新更新