小贝子编程

Datalab内核由于数据集大小而崩溃.负载平衡一个选项

本文关键字：平衡选项一个负载崩溃内核数据集 Datalab google-cloud-storage google-compute-engine google-cloud-datalab
更新时间 : 2023-09-08
英文 : Datalab kernel crashes because of data set size. Is load balancing an option?

我当前正在运行具有最高内存的虚拟机，n1-highmem-32（32 VCPU，208 GB内存）。

我的数据集约为90个演出，但将来有可能成长。

数据中存储在许多Zipped CSV文件中。我将数据加载到一个稀疏的矩阵中，以预成一些维度降低和聚类。

datalab内核在一台计算机上运行。由于您已经在208GB RAM计算机上运行，因此您可能必须切换到分布式系统来分析数据。

如果您在数据上进行的操作可以表示为SQL，我建议将数据加载到BigQuery中，Datalab对此有很多支持。否则，您可能需要将处理管道转换为使用DataFlow（具有Python SDK）。根据您的操作的复杂性，其中任何一个都可能很困难。

相关内容