正则表达式,用于捕获和过滤早期只有一个唯一编号的"steps"字符串



我有一只熊猫。系列

s = pd.Series(['1-Onboarding + Retorno', '1.1-Onboarding escolha de bot',
'2-Seleciona produto', '3-Informa localizacao e cpf',
'3.1-CPF valido (V.2.0)', '3.2-Obtencao de CEP'],name = 'Steps')
0           1-Onboarding + Retorno
1    1.1-Onboarding escolha de bot
2              2-Seleciona produto
3      3-Informa localizacao e cpf
4           3.1-CPF valido (V.2.0)
5              3.2-Obtencao de CEP

这里的想法是"过滤"因此,我只收集具有唯一编号的字符串。

s = pd.Series(['1-Onboarding + Retorno',
'2-Seleciona produto', '3-Informa localizacao e cpf'],name = 'Steps')
0         1-Onboarding + Retorno
1            2-Seleciona produto
2    3-Informa localizacao e cpf
Name: Steps, dtype: object

有什么好主意吗?我在表述正则表达式时遇到了困难。我知道我应该在Pandas中使用这个过滤器。

s.str.contains('',regex = True) 

我们可以在这里使用str.contains:

df_out = s[s["Steps"].str.contains(r'^d+-', regex=True)]

结果输出数据帧df_out将只包含以主版本号(整数)开始的步长值。

你可以使用

l=[]
for i in range(len(s)):
if '.' not in s[i] :
l.append(s[i])
new_s= pd.Series(l,name = 'Steps')

:

0         1-Onboarding + Retorno
1            2-Seleciona produto
2    3-Informa localizacao e cpf

相关内容

最新更新