如何正确应用熊猫系列提取法



想要用短划线和分隔每一行值

看了Andy Hayden的回答后

我正在对U33A, A进行分组

使用(?P<Line>^d{1,2}|^.|.*, .)

U-2022W-ZZ5891等行中的

并尝试使用df[0] = df[0].str.extract(r'(?P<Line>^d{1,2}|^.|.*, .)')进行应用我不确定如何继续分组,从首发到决赛。

col0
U-2022W-ZZ5891
U-2014X-7073
U-2010X-45
33-2010X-ZZ45
A,A-2010X-45
U-1996W-M-ZZ5891

您可以使用以下正则表达式:

new_df = df['col0'].str.extract('(.+?)-(.+?)-(?:(.+?)-)?(.+)').fillna('')

输出:

>>> new_df
0      1  2       3
0     U  2022W     ZZ5891
1     U  2014X       7073
2     U  2010X         45
3    33  2010X       ZZ45
4  A, A  2010X         45
5     U  1996W  M  ZZ5891

最新更新