我需要写数据转换,以便为以后的读进行优化。我计划用pyspark
来做这个.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)
因为这只是一个转换,我认为这可能是一个很好的用例,我尝试dbt
我从未使用过dbt -问题,如果我不是dbt实例的管理员,我是否能够在spark上实现dbt相同的功能,并且只能在spark连接器上编写查询?
感谢dbt-spark适配器目前在模型配置中支持partition_by
, cluster_by
和buckets
,这与SparkSQL的CREATE TABLE
语句中提供的选项相同。