如果我打算在dbt上用spark写数据,dbt是否支持repartitionByRange, partitionBy,



我需要写数据转换,以便为以后的读进行优化。我计划用pyspark

来做这个
.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)

因为这只是一个转换,我认为这可能是一个很好的用例,我尝试dbt

我从未使用过dbt -问题,如果我不是dbt实例的管理员,我是否能够在spark上实现dbt相同的功能,并且只能在spark连接器上编写查询?

感谢

dbt-spark适配器目前在模型配置中支持partition_by, cluster_bybuckets,这与SparkSQL的CREATE TABLE语句中提供的选项相同。

最新更新