小贝子编程

大查询或突变数据框架

本文关键字：数据框架突变查询 apache-spark hive apache-spark-sql
更新时间 : 2023-09-13
英文 : Large Query or mutate Dataframe?

我正在使用SparkSession连接到Hive数据库。我正在尝试确定什么是充实数据的最佳方法。我当时正在使用Spark SQL，但我疲倦地使用它。

SparkSQL是否只调用Hive SQL？所以这意味着使用Spark没有改善的性能？
如果不是，我应该只创建一个大型SQL查询来激发火花，还是应该抓住表，我不想将其转换为数据框架并使用Sparks功能进行操作？

不，Spark将读取Hive的数据，但请使用自己的执行引擎。性能和功能会有所不同。多少取决于您用于Hive的执行引擎。(m/r，tez，spark，llap？(
那是同一回事。我会坚持使用SQL查询，并且一开始就对Hive进行A-B-Test，但是SQL很难维护，在长期使用Spark的数据集API使用Scala/Python代码的情况下，长期以来更友好。

相关内容

最新更新