如何在数据帧上使用并发API



我需要并行化Scala数据框架来加载各种表。我有一个事实表,大约有1.7 TB的数据。加载大约需要5分钟。我想并发加载我的维度表,这样我就可以减少我的整体scala。我不太熟悉Scala的并发API。

您需要仔细阅读Spark -它的全部要点是并行处理超出单台机器范围的数据。从本质上讲,Spark将通过并行运行的许多任务来并行负载-这完全取决于您如何设置集群-从问题中我猜您只使用on并且您在本地模型中运行它,在这种情况下您至少应该在本地运行它[您拥有的处理器数量]

如果我没有说清楚,你也不应该使用任何其他Scala并发api

相关内容

  • 没有找到相关文章

最新更新