是Spark DataFrames分布式的

我将批处理操作转换为火花作业，目的是在AWS EMR中运行；这项工作的核心是两个合理的数据集之间的联接。

操作的核心是联接：

table_1: loaded from json file_1
table_2: loaded from parquet file_2
joined_table = table_1.join(table_2)
   .map(some_data_transformations)
store_it_off(joined_table)

根据Google定义，数据框是一个表格结构，并且分发了RDD；但是，我已经看到了其他注释，即基于RDD实现了数据框。数据范围分布式吗？它们是否仅在某些步骤平行后分布？

是的是Spark DataFrames已分发
从火花差异指南：

.. Spark DataFrame可以跨越数千台计算机。

但是，这仅在Scala和Java中可用，
从同一本书中：

... Python/R DataFrames存在于一台计算机上，而不是多台计算机上

相关内容

最新更新

热门标签：