水平堆叠 Spark 数据帧 - 相当于 pandas concat 或 r cbind



有没有办法将一个dataframe水平附加到另一个 - 假设两者都有相同的行数?

这相当于axis=1pandas concat;

result = pd.concat([df1, df4], axis=1) 

R cbind

不会有。与熊猫DataFrame不同,火花DataFrame更像是一种关系,没有内在的秩序。

有已知的模式,将数据转换为RDDzipWithIndex(PySpark数据帧 - 枚举而不转换为Pandas的方法? 然后join使用索引字段,但它最终是一个反模式*。


* 如果我们没有明确保证特定的顺序(谁知道所有新的花里胡哨的东西,如基于成本的优化器和自定义优化器规则会发生什么(,那么它很容易变得脆弱并以某种意想不到的方式悄无声息地失败。

相关内容

  • 没有找到相关文章

最新更新