Google DataPrep is extremely slow



在Google Dataflow中,我有一个工作基本上看起来像这样:

数据集:100 行,1 列。
配方:0 步
输出:新表。

但是运行需要6-8分钟。可能是什么问题?

通常以分钟为单位,而不是以秒为单位进行 Dataprep/数据流设置。 这些解决方案适用于大型数据集,即使您的大小是其 10 倍,持续时间也保持不变。

DataPrep 会为你创建一个数据流工作流,并为你预配一些虚拟机,这需要时间,通常该阶段可能在分钟标记内。稍后才将其扩展到 50 或 1000 个盒子。

最新更新