如何删除文本中的标点符号



我有一个非常大的数据集。我想知道如何在pyspark中删除大数据集中的所有标点符号?例如, . & | - _

您可以使用regexp_replace来删除使用正则表达式指定的标点符号

import pyspark.sql.functions as F
df2 = df.select(
[F.regexp_replace(col, r',|.|&|\|||-|_', '').alias(col) for col in df.columns]
)

相关内容

  • 没有找到相关文章

最新更新