Pandas.str.replace Regex Application



我正在尝试进行一些数据质量控制,并希望使用 Pandas.str.replace 方法使用正则表达式将一个字符串替换为另一个字符串。 我正在考虑重新格式化一个看起来像

#'250 ED ENGLISH DR, BLDG #3 UNIT C,'

像这样:

#'250 ED ENGLISH DR, #3C  

使用了以下内容,但熊猫没有意识到我正在尝试用正则表达式替换:

df.Address=df.Address.str.replace(r'250 ENGLISH DR, BLDG #d* UNIT S[a-z]*', r'250 ENGLISH DR,' + r'(?<=250 ENGLISH DR, BLDG #)d*' + r'S{1,2}$', regex=True)

有没有人知道如何调整此代码以使其工作? 搜索字符串非常有效。

如果您严格尝试替换单词"BLDG"和"UNIT",这将起作用。

df
    Address
0   250 ED ENGLISH DR, BLDG #3 UNIT C

尝试

df.Address.str.replace('BLDG | UNIT ', '')

返回

0    250 ED ENGLISH DR, #3C

你应该试试这个。

df.Address=df.Address.str.replace(r'250 ENGLISH DR, BLDG #(d*) UNIT (S[a-zA-Z]*)', r'250 ENGLISH DR, #12')

最新更新