如何从优化中获得p50FileSize(没有使用历史记录)?



我想从优化查询返回后获得p50FileSize指标。目前看来,完成此任务的唯一方法是:

spark.sql("OPTIMIZE .delta 'path'")
dt = DeltaTable.forPath(spark, 'path')

然后从dt获取历史和操作更快的方法是在查询之后立即提取此数据:

data = Spark.sql("OPTIMIZE .delta 'path'")

从数据中获取度量,但是p25FileSize, p50FileSize, p75FileSize没有度量。有没有一种方法可以在不调用.history()命令的情况下获得这些指标?

是否有一种方法可以在不调用.history()命令的情况下获得这些指标?

tl;博士No (Delta Lake 1.2.1)

内部

看起来指标只计算要提交的事务,并且在执行OPTIMIZE时不会返回。

最新更新