我有一个数据集,该数据集包含一个带有信用卡商人数据的字段。我想使用正则表达式预处理值(在使用模糊匹配之前"清洁值"标准化字段("所需输出")
[merchant] [clean value] [desired output]
UPS1Z3734A345 UPS UPS
UPS 1Z68A3125 UPS UPS
HOME DEPOT #3421 HOME DEPOT HOME DEPOT
STAPLES - #123 STAPLES STAPLES
STPLS #4560 STPLS STAPLES
我需要能够解决许多不同的情况(例如" - ",数字值,"#"字符等)
我在正则是新的,但这是我到目前为止提出的
(.+)[?=#]
但是,这仅在字符串中有一个"#"时解决。此外,如果字符串中没有非字母字符,则该字段返回空白
我很想在如何正确制作这种表达方面获得一些帮助。
尝试以下:
((?:[^d#-]){2,}).*$
它将创建一个应包含您的清洁值的组。(直到找到数字的任何字符,#或 - )
https://regex101.com/r/tfucct/1