我有下面的代码,在PySpark中,
df1 = spark.range(2, 10000000, 2)
df2 = spark.range(2, 10000000, 4)
step1 = df1.repartition(5)
step12 = df2.repartition(6)
step2 = step1.selectExpr("id * 5 as id")
step3 = step2.join(step12, ["id"])
step4 = step3.selectExpr("sum(id)")
step4.collect()
我想使用 step4.queryExecution.debug.codegen
,它存在于 Scala 包中。任何人都可以指出我当前的软件包。
这部分 API 不会在 PySpark 中公开,但可以通过内部 JVM 对象访问:
step4._jdf.queryExecution().debug().codegen()