Spark SQL:如何优化多个巨大的Hive表连接

有火花sql作业：

spark.sql(s"""SELECT *
  FROM (
  select * from default.table1
  where
  created_dt between date '2018-01-01' and '2018-01-02'
  group by 1,2) table11, -- about 100,000,000 records
  default.table2 table22,-- about 600,000,000 records
  default.table3 table33,-- about 3000,000,000 records
  default.table4 table44-- about 100,000,000 records
  WHERE table22.item_id = table11.item_id
  AND hot.item_site_id  IN (SELECT SITE_ID FROM default.table5)
  AND table22.item_id = table33.item_id
  AND table22.end_dt = table33.end_dt
  AND table22.end_dt >= date '2018-01-01' - interval '180' day
  LIMIT 10000""")
  .collect()
  //.map(t => "Id: " + t(0))
  .foreach(println)

在作业中，应在item_id和end_dt等字段上连接 4 个Hive表。每个表中大约有 100,000,000 条记录。

如何优化连接？例如，如果每个表都分区，性能可以大大提高？谢谢

有许多

策略可用于优化 Spark 联接。在这次星火峰会演讲中概述了许多内容。您可以在此处找到有关优化SortMergeJoin性能的更多详细信息。

请注意，排序合并联接可以非常有效地处理已排序的数据。以正确形式获取数据的一种方法是将其保存为存储桶化表，并对每个存储桶中的数据进行排序（df.write.bucketBy(n, "x").sortBy("x")）。表元存储将保留有关存储桶的信息，查询优化器稍后可以使用这些信息。请注意，如果您保存到路径，这将不起作用，除非您使用的是 Databricks Delta 之类的东西。

除此之外，您还想看看我对在 Spark SQL 中连接大型表的优化方法的回答。

相关内容

最新更新

热门标签：