如何去掉空格和点,转换成小写



我有一个名为

的pyspark数据框架
N. Plainfield  
North Plainfield
West Home  Land 
NEWYORK
newyork
So. Plainfield
S.  Plaindield

有的字母首字母之间有点和空格,有的没有。如何将它们转换为:

n Plainfield  
north plainfield
west homeland
newyork 
newyork
so plainfield
s plainfield

(首字母之间没有点和空格,首字母和名字之间有一个空格)

我试着用下面的,但它只替换点,不删除首字母之间的空格:

names_modified = names.withColumn("name_clean", regexp_replace("name", r".",""))

删除空格和点后,是否有办法得到不同的值。这样的。

north plainfield
west homeland 
newyork
so plainfield

我认为你应该把步骤分开。

  1. 从大写到小写

  2. 使用regex_replace函数替换圆点

    from pyspark.sql.functions import *
    # from uppercase to lowercase
    names_modified = names_modified.withColumn('name', lower('name'))
    # from dot to blink
    names_modified = names_modified.withColumn('name_clean', regex_replace('name', '.', ' '))
    

相关内容

  • 没有找到相关文章

最新更新