大查询或突变数据框架



我正在使用SparkSession连接到Hive数据库。我正在尝试确定什么是充实数据的最佳方法。我当时正在使用Spark SQL,但我疲倦地使用它。

  1. SparkSQL是否只调用Hive SQL?所以这意味着使用Spark没有改善的性能?

  2. 如果不是,我应该只创建一个大型SQL查询来激发火花,还是应该抓住表,我不想将其转换为数据框架并使用Sparks功能进行操作?

  1. 不,Spark将读取Hive的数据,但请使用自己的执行引擎。性能和功能会有所不同。多少取决于您用于Hive的执行引擎。(m/r,tez,spark,llap?(
  2. 那是同一回事。我会坚持使用SQL查询,并且一开始就对Hive进行A-B-Test,但是SQL很难维护,在长期使用Spark的数据集API使用Scala/Python代码的情况下,长期以来更友好。

最新更新