我想从优化查询返回后获得p50FileSize指标。目前看来,完成此任务的唯一方法是:
spark.sql("OPTIMIZE .delta 'path'")
dt = DeltaTable.forPath(spark, 'path')
然后从dt
获取历史和操作更快的方法是在查询之后立即提取此数据:
data = Spark.sql("OPTIMIZE .delta 'path'")
从数据中获取度量,但是p25FileSize, p50FileSize, p75FileSize没有度量。有没有一种方法可以在不调用.history()命令的情况下获得这些指标?
是否有一种方法可以在不调用.history()命令的情况下获得这些指标?
tl;博士No (Delta Lake 1.2.1)
内部看起来指标只计算要提交的事务,并且在执行OPTIMIZE
时不会返回。