我有一个名为
的pyspark数据框架N. Plainfield
North Plainfield
West Home Land
NEWYORK
newyork
So. Plainfield
S. Plaindield
有的字母首字母之间有点和空格,有的没有。如何将它们转换为:
n Plainfield
north plainfield
west homeland
newyork
newyork
so plainfield
s plainfield
(首字母之间没有点和空格,首字母和名字之间有一个空格)
我试着用下面的,但它只替换点,不删除首字母之间的空格:
names_modified = names.withColumn("name_clean", regexp_replace("name", r".",""))
删除空格和点后,是否有办法得到不同的值。这样的。
north plainfield
west homeland
newyork
so plainfield
我认为你应该把步骤分开。
-
从大写到小写
-
使用regex_replace函数替换圆点
from pyspark.sql.functions import * # from uppercase to lowercase names_modified = names_modified.withColumn('name', lower('name')) # from dot to blink names_modified = names_modified.withColumn('name_clean', regex_replace('name', '.', ' '))