我有一只熊猫。系列
s = pd.Series(['1-Onboarding + Retorno', '1.1-Onboarding escolha de bot',
'2-Seleciona produto', '3-Informa localizacao e cpf',
'3.1-CPF valido (V.2.0)', '3.2-Obtencao de CEP'],name = 'Steps')
0 1-Onboarding + Retorno
1 1.1-Onboarding escolha de bot
2 2-Seleciona produto
3 3-Informa localizacao e cpf
4 3.1-CPF valido (V.2.0)
5 3.2-Obtencao de CEP
这里的想法是"过滤"因此,我只收集具有唯一编号的字符串。
s = pd.Series(['1-Onboarding + Retorno',
'2-Seleciona produto', '3-Informa localizacao e cpf'],name = 'Steps')
0 1-Onboarding + Retorno
1 2-Seleciona produto
2 3-Informa localizacao e cpf
Name: Steps, dtype: object
有什么好主意吗?我在表述正则表达式时遇到了困难。我知道我应该在Pandas中使用这个过滤器。
s.str.contains('',regex = True)
我们可以在这里使用str.contains
:
df_out = s[s["Steps"].str.contains(r'^d+-', regex=True)]
结果输出数据帧df_out
将只包含以主版本号(整数)开始的步长值。
你可以使用
l=[]
for i in range(len(s)):
if '.' not in s[i] :
l.append(s[i])
new_s= pd.Series(l,name = 'Steps')
:
0 1-Onboarding + Retorno
1 2-Seleciona produto
2 3-Informa localizacao e cpf