小贝子编程

如果我打算在dbt上用spark写数据，dbt是否支持repartitionByRange, partitionBy,

本文关键字：dbt 数据是否支持 partitionBy repartitionByRange spark 上用如果 apache-spark dbt
更新时间 : 2023-09-22
英文 : Does dbt support repartitionByRange, partitionBy, bucketBy, sortBy if I plan to write data with spark over dbt?

我需要写数据转换，以便为以后的读进行优化。我计划用pyspark

来做这个

.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)

因为这只是一个转换，我认为这可能是一个很好的用例，我尝试dbt

我从未使用过dbt -问题，如果我不是dbt实例的管理员，我是否能够在spark上实现dbt相同的功能，并且只能在spark连接器上编写查询?

感谢

dbt-spark适配器目前在模型配置中支持partition_by, cluster_by和buckets，这与SparkSQL的CREATE TABLE语句中提供的选项相同。

相关内容