Pandas.str.replace Regex Application

我正在尝试进行一些数据质量控制，并希望使用 Pandas.str.replace 方法使用正则表达式将一个字符串替换为另一个字符串。我正在考虑重新格式化一个看起来像

#'250 ED ENGLISH DR, BLDG #3 UNIT C,'

像这样：

#'250 ED ENGLISH DR, #3C

我

使用了以下内容，但熊猫没有意识到我正在尝试用正则表达式替换：

df.Address=df.Address.str.replace(r'250 ENGLISH DR, BLDG #d* UNIT S[a-z]*', r'250 ENGLISH DR,' + r'(?<=250 ENGLISH DR, BLDG #)d*' + r'S{1,2}$', regex=True)

有没有人知道如何调整此代码以使其工作？搜索字符串非常有效。

如果您严格尝试替换单词"BLDG"和"UNIT"，这将起作用。

df
    Address
0   250 ED ENGLISH DR, BLDG #3 UNIT C

尝试

df.Address.str.replace('BLDG | UNIT ', '')

0    250 ED ENGLISH DR, #3C

你应该试试这个。

df.Address=df.Address.str.replace(r'250 ENGLISH DR, BLDG #(d*) UNIT (S[a-zA-Z]*)', r'250 ENGLISH DR, #12')

相关内容

最新更新

热门标签：