我们有一个Spark版本为2.0的MapR集群我们试图测量当前在 TEZ 引擎上运行的 Hive 查询的性能差异,然后在 Spark-sql 上运行它,只需在 .hql 文件中编写 sql 查询,然后通过 shell 文件调用它。
查询包含大量联接,这肯定会创建多个阶段,在这种情况下会发生洗牌,这是最佳选择。?
Spark 中的数据集在执行 groupBy、max、min、count.等聚合时是否比数据帧慢?等。。
那么在所有领域,数据帧的性能都比数据集更好,反之亦然..?
在 Spark 2.0 中,Dataset[Row] 是 Dataframe 的别名,因此应该没有任何性能问题。
请看:
-
何时使用Spark DataFrame/Dataset API,何时使用纯RDD?
-
三个Apache Spark API的故事:RDD,DataFrames和数据集