如何将pyspark数据框的多个列(具有相同键的字典)爆炸成行



数据帧有多个字典格式的列-它们具有相同的键。我如何将它们分解成行,而不必使用任何连接来保持键与任何列的连接?

数据框架的模式在这里需要拆分的列是pct_ci_tr、pct_ci_rn、pct_ci_ttv和pct_ci_comm

我会这样做:

from pyspark.sql import functions as F
df.select(
"s__",
F.expr("""
stack(
4,
"pct_ci_tr",
pct_ci_tr,
"pct_ci_rn",
pct_ci_rn,
"pct_ci_ttv",
pct_ci_ttv,
"pct_ci_comm",
pct_ci_comm,
) as (lib, map_values)"""
),
).select("s__", "lib", F.explode(F.col("map_values")))

相关内容

  • 没有找到相关文章

最新更新