我想使用pyspark将字母数字字符串列中的数字提取到只包含数字而不包含字母的另一列中。
Useregexp_replace
函数用D
替换字符串中的所有非数字字符。
例子:
df.withColumn("ns",regexp_replace(col("id"),"(D)","")).show()
#+------+---+
#| id| ns|
#+------+---+
#|a1b2c4|124|
#+------+---+