我有一个看起来像这样的数据集:
Column1
-------
abcd - efghi 1234
aasdas - asdas 54321
asda-asd 2344
aasdas(asd) 5234
我希望能够提取所有将排除数字的内容,因此它看起来像这样:
Column2
-------
abcd - efghi
aasdas - asdas
asda-asd
aasdas(asd)
这是我当前的正则表达式:
df['Column2'] = df['Column1'].str.extract('([A-Z]w{0,})', expand=True)
但它只提取了第一个不包括括号和连字符的单词。任何帮助将不胜感激...谢谢!
就像使用replace
df.Column1.str.replace('d+','')
Out[775]:
0 abcd-efghi
1 aasdas-asdas
2 asda-asd
3 aasdas(asd)
Name: Column1, dtype: object
#df.Column1=df.Column1.str.replace('d+','')
只是删除数字会给你留下不需要的空格字符。
此列表理解删除所有数字并保留 空格字符,但在外部删除它们。
df['Column2'] = df['Column1'].apply(
lambda x: ''.join([i for i in x if not i.isdigit()]).strip())