替换pyspark数据框中的换行字符、退格字符和回车字符



我有一个文件与3列的数据在每一列。数据格式如下:

每个字段都用退格括起来,如:BSC123BSC(这里BSC是一个退格字符)。列的值包含新的行和回车符。列由转义字符分隔。

我无法找到替换上述三个字符的正则表达式模式。

一个简单的[bnr]就可以了。

>>> data = spark.createDataFrame([('086261636b73706163650d43520a4c4608',),('080d0a08',)],['hexstring']).withColumn('col',decode(unhex('hexstring'),'UTF-8')).drop('hexstring')
>>> cleansed = data.withColumn('regexed',regexp_replace('col','[bnr]','*'))                                                              
>>> cleansed.select('regexed').show()
+-----------------+                                                             
|          regexed|
+-----------------+
|*backspace*CR*LF*|
|             ****|
+-----------------+
>>> 

最新更新