我有一个非常大的数据集。我想知道如何在pyspark中删除大数据集中的所有标点符号?例如, . & | - _
您可以使用regexp_replace
来删除使用正则表达式指定的标点符号
import pyspark.sql.functions as F
df2 = df.select(
[F.regexp_replace(col, r',|.|&|\|||-|_', '').alias(col) for col in df.columns]
)