根据条件将列添加到Pyspark数据框架中



我的data.csv文件具有以下三个列。我已经将此文件转换为Python Spark DataFrame。

  A   B    C
| 1 | -3 | 4 |
| 2 | 0  | 5 |
| 6 | 6  | 6 |

我想在Spark DataFrame中添加另一列D,其值为"是"或"否),如果B列中的相应值大于0,则是YES,否则否。

  A   B    C   D
| 1 | -3 | 4 | No  |
| 2 | 0  | 5 | No  |
| 6 | 6  | 6 | Yes |

我无法通过Pyspark DataFrame操作实现此目标。

尝试这样的东西:

from pyspark.sql import functions as f
df.withColumn('D', f.when(f.col('B') > 0, "Yes").otherwise("No")).show()

相关内容

  • 没有找到相关文章

最新更新