将零在pyspark中的值

我有一个dataframe df：

val1   val2  val3
271   70    151
213   1     379
213   3     90
213   6     288
20    55    165

我想将此数据框架转换为：

val1   val2  val3
271   70    0151
213   01    0379
213   03    0090
213   06    0288
020   55    0165

我该如何在Pyspark中做到这一点？并且可以使用Spark SQL进行吗？欢迎任何帮助。

对于数字类型，您可以使用format_string：

from pyspark.sql.functions import format_string
(sc.parallelize([(271, ), (20, ), (3, )])
    .toDF(["val"])
    .select(format_string("%03d", "val"))
    .show())

+------------------------+
|format_string(%03d, val)|
+------------------------+
|                     271|
|                     020|
|                     003|
+------------------------+

字符串lpad：

from pyspark.sql.functions import lpad
(sc.parallelize([("271", ), ("20", ), ("3", )])
    .toDF(["val"])
    .select(lpad("val", 3, "0"))
    .show())

+---------------+
|lpad(val, 3, 0)|
+---------------+
|            271|
|            020|
|            003|
+---------------+

from pyspark.sql.functions import col, format_string
df = spark.createDataFrame([('123',),('1234',)],['number',])
df = df.withColumn('number_padded', format_string("%012d", col('number').cast('int')))
df.show()

编号	number_padded
123	000000000123
1234	000000001234

相关内容

最新更新

热门标签：