Pyspark DataFrame-将字符串映射到数字

我正在寻找一种转换给定数据列的方法，在这种情况下，并将它们转换为数字表示。例如，我有一个带有值的字符串的数据框架：

+------------+
|    level   |
+------------+
|      Medium|
|      Medium|
|      Medium|
|        High|
|      Medium|
|      Medium|
|         Low|
|         Low|
|        High|
|         Low|
|         Low|

我想创建一个新列，其中这些值转换为：

"High"= 1, "Medium" = 2, "Low" = 3
+------------+
|   level_num|
+------------+
|           2|
|           2|
|           2|
|           1|
|           2|
|           2|
|           3|
|           3|
|           1|
|           3|
|           3|

我已经尝试定义一个函数并在类似的数据框架上进行操作：

def f(x): 
    if(x == 'Medium'):
       return 2
    elif(x == "Low"):
       return 3
    else:
       return 1
 a = df.select("level").rdd.foreach(f)

但这返回"无"类型。想法？感谢您的帮助！

您当然可以按照您一直在尝试的行 - 需要map操作而不是foreach。

spark.version
# u'2.2.0'
from pyspark.sql import Row
# toy data:
df = spark.createDataFrame([Row("Medium"),
                              Row("High"),
                              Row("High"),
                              Row("Low")
                             ],
                              ["level"])
df.show()
# +------+ 
# | level|
# +------+
# |Medium|
# |  High|
# |  High|
# |   Low|
# +------+

使用您的f(x)和这些玩具数据，我们得到：

df.select("level").rdd.map(lambda x: f(x[0])).collect()
# [2, 1, 1, 3]

和另一个map将为您提供数据框架：

df.select("level").rdd.map(lambda x: f(x[0])).map(lambda x: Row(x)).toDF(["level_num"]).show()
# +---------+ 
# |level_num|
# +---------+
# |        2|
# |        1|
# |        1| 
# |        3|
# +---------+

，但最好使用dataframe函数 when而不是您的 f(x)：

使用临时中间RDD而不调用临时中间RDD。

from pyspark.sql.functions import col, when
df.withColumn("level_num", when(col("level")=='Medium', 2).when(col("level")=='Low', 3).otherwise(1)).show()
# +------+---------+ 
# | level|level_num|
# +------+---------+
# |Medium|        2|
# |  High|        1| 
# |  High|        1|
# |   Low|        3| 
# +------+---------+

一种替代方案是使用python词典来表示Spark＆gt; = 2.4。

然后使用数组和map_from_arrays spark spark函数来实现基于密钥的搜索机制以填充level_num字段：

from pyspark.sql.functions import lit, map_from_arrays, array
_dict = {"High":1, "Medium":2, "Low":3}
df = spark.createDataFrame([
["Medium"], ["Medium"], ["Medium"], ["High"], ["Medium"], ["Medium"], ["Low"], ["Low"], ["High"]
], ["level"])
keys = array(list(map(lit, _dict.keys()))) # or alternatively [lit(k) for k in _dict.keys()]
values = array(list(map(lit, _dict.values())))
_map = map_from_arrays(keys, values)
df.withColumn("level_num", _map.getItem(col("level"))) # or element_at(_map, col("level"))
# +------+---------+
# | level|level_num|
# +------+---------+
# |Medium|        2|
# |Medium|        2|
# |Medium|        2|
# |  High|        1|
# |Medium|        2|
# |Medium|        2|
# |   Low|        3|
# |   Low|        3|
# |  High|        1|
# +------+---------+

相关内容

最新更新

热门标签：