我知道它在Python中是可行的,但有没有内置函数或类似或类似in的功能?例如,如果名称列包含John Doe
,则应返回4作为空间计数。
还是应该创建一个UDF?
几个选项:
F.size(F.split('col_name', ' ')) - 1
F.length(F.regexp_replace('col_name', '[^ ]+', ''))
Spark 3.4+
F.expr("regexp_count(col_name, ' ')")