我的spark数据帧df的列名为:A_x1、A_x2、B_x1、B_x2、C_x1、C_x2。
如何使用前缀从df创建3个新的spark数据帧?输出应该是这样的:
名为A_的- 数据帧包含列A_x1、A_x2、A_x2和A_x2
- 名为B_的数据帧包含列B_
- 名为C_的数据帧包含列C_x1、C_x2
谢谢!
您可以使用colRegex
来过滤列:
A_ = df.select(df.colRegex('`A_.*`'))
B_ = df.select(df.colRegex('`B_.*`'))
C_ = df.select(df.colRegex('`C_.*`'))