用于聚合的 Spark 数据集或数据帧



我们有一个Spark版本为2.0的MapR集群我们试图测量当前在 TEZ 引擎上运行的 Hive 查询的性能差异,然后在 Spark-sql 上运行它,只需在 .hql 文件中编写 sql 查询,然后通过 shell 文件调用它。

查询包含大量联接,这肯定会创建多个阶段,在这种情况下会发生洗牌,这是最佳选择。?

Spark 中的数据集在执行 groupBy、max、min、count.等聚合时是否比数据帧慢?等。。

那么在所有领域,数据帧的性能都比数据集更好,反之亦然..?

在 Spark 2.0 中,Dataset[Row] 是 Dataframe 的别名,因此应该没有任何性能问题。

请看:

  • 何时使用Spark DataFrame/Dataset API,何时使用纯RDD?

  • 三个Apache Spark API的故事:RDD,DataFrames和数据集

相关内容

  • 没有找到相关文章

最新更新