小贝子编程

用于聚合的 Spark 数据集或数据帧

本文关键字：数据集数据帧 Spark 用于 apache-spark-sql apache-spark-dataset apache-spark-2.0 databricks
更新时间 : 2023-09-08
英文 : Spark Dataset or Dataframe for Aggregation

我们有一个Spark版本为2.0的MapR集群我们试图测量当前在 TEZ 引擎上运行的 Hive 查询的性能差异，然后在 Spark-sql 上运行它，只需在 .hql 文件中编写 sql 查询，然后通过 shell 文件调用它。

查询包含大量联接，这肯定会创建多个阶段，在这种情况下会发生洗牌，这是最佳选择。？

Spark 中的数据集在执行 groupBy、max、min、count.等聚合时是否比数据帧慢？等。。

那么在所有领域，数据帧的性能都比数据集更好，反之亦然..？

在 Spark 2.0 中，Dataset[Row] 是 Dataframe 的别名，因此应该没有任何性能问题。

请看：

相关内容