PySpark:如何计算字符串中的空格数



我知道它在Python中是可行的,但有没有内置函数或类似或类似in的功能?例如,如果名称列包含John Doe,则应返回4作为空间计数。

还是应该创建一个UDF?

几个选项:

F.size(F.split('col_name', ' ')) - 1
F.length(F.regexp_replace('col_name', '[^ ]+', ''))

Spark 3.4+

F.expr("regexp_count(col_name, ' ')")

最新更新