小贝子编程

水平堆叠 Spark 数据帧 - 相当于 pandas concat 或 r cbind

本文关键字：concat pandas cbind 相当于 Spark 数据帧水平 apache-spark dataframe
更新时间 : 2023-09-13
英文 : Stack Spark dataframes horizontally - equivalent to pandas concat or r cbind

有没有办法将一个dataframe水平附加到另一个 - 假设两者都有相同的行数？

这相当于axis=1的pandas concat;

result = pd.concat([df1, df4], axis=1)

或R cbind

不会有。与熊猫DataFrame不同，火花DataFrame更像是一种关系，没有内在的秩序。

有已知的模式，将数据转换为RDD，zipWithIndex(PySpark数据帧 - 枚举而不转换为Pandas的方法？然后join使用索引字段，但它最终是一个反模式*。

* 如果我们没有明确保证特定的顺序(谁知道所有新的花里胡哨的东西，如基于成本的优化器和自定义优化器规则会发生什么(，那么它很容易变得脆弱并以某种意想不到的方式悄无声息地失败。

相关内容