通过从现有数据帧中筛选字符来创建新的数据帧



我有一个pandas数据帧:

id         name
63         T台
64        4S店
66    江南style
68        1号店
69         小S
70         大S
72          一
73         一一
74        一一二
77       一一列举
79       一一对应
80        一一记
81       一一道来
82         一丁
84        一丁点

我试图创建一个新的数据帧,只使用name:列中没有特定列表中字符的行

letters = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '%', '+']

我发现有几个问题有点类似(像这样(,但它们是基于特定值(例如df[(df['count'] == '2') & (df['price'] == '100')](进行筛选的,而不是从值列表中进行筛选。

在这个例子中,输出应该是一个没有行63-70的新数据帧。

我试着做一些类似的事情来获得True/False的列表,我可以在数据帧上使用它来过滤:

('a' not in current_dataframe['name'])

但由于某种原因,它只输出一个值:

>>> True

您可以使用正则表达式:

import re
pat = re.compile("|".join(re.escape(l) for l in letters), flags=re.I)
print(df[~df["name"].str.contains(pat)])

打印:

id  name
3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点

通过列表理解:

to_keep = [not any(letter in val for letter in letters) for val in df.name]
new_df = df[to_keep]

其中to_keep是布尔列表,并且如果字母中没有任何字母在df.name的对应值中,则条目是True。然后我们使用布尔索引只保留那些行,

获取

>>> new_df
3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点

最新更新