如何从熊猫数据帧中的字符串术语中删除数字

>我有一个类似于下面的数据框：

Name    Volume  Value
May21   23      21321
James   12      12311
Adi22   11      4435
Hello   34      32454
Girl90  56      654654

我希望输出采用以下格式：

Name    Volume  Value
May     23      21321
James   12      12311
Adi     11      4435
Hello   34      32454
Girl    56      654654

想要从"名称"列中删除所有数字。

我最接近的是使用以下代码在单元格级别执行此操作：

result = ''.join([i for i in df['Name'][1] if not i.isdigit()])

知道如何在系列/数据帧级别以更好的方式做到这一点。

您可以将 str.replace 与正则表达式结合使用应用于Name列：

import pandas as pd
# Example DataFrame
df = pd.DataFrame.from_dict({'Name'  : ['May21', 'James', 'Adi22', 'Hello', 'Girl90'],
                             'Volume': [23, 12, 11, 34, 56],
                             'Value' : [21321, 12311, 4435, 32454, 654654]})
df['Name'] = df['Name'].str.replace('d+', '')
print(df)

输出：

    Name   Value  Volume
0    May   21321      23
1  James   12311      12
2    Adi    4435      11
3  Hello   32454      34
4   Girl  654654      56

在正则表达式中，d代表"任何数字"，+代表"一个或多个"。

因此，str.replace('d+', '')的意思是："将字符串中出现的所有数字替换为任何内容"。

你可以这样做：

df.Name = df.Name.str.replace('d+', '')

要玩和探索，请在此处查看在线正则表达式演示：https://regex101.com/r/Y6gJny/2

与模式匹配的任何d+即 1 位或多位数字，都将被空字符串替换。

.str不是

必需的。您可以使用 pandas dataframe.replace 或 series.replace 与regex=True参数一起使用。

df.replace('d+', '', regex=True)

如果要更改源数据帧，请使用inplace=True 。

df.replace('d+', '', regex=True, inplace=True)

尽管问题听起来更笼统，但示例输入仅包含尾随数字。在这种情况下，您不必使用正则表达式，因为.rstrip（也可以通过Series对象的.str访问器获得）可以做到这一点：

import string
df['Name'] = df['Name'].str.rstrip(string.digits)

同样，您可以使用 .lstrip 从开头去除任何数字，或使用 .strip 从每个字符串的开头和结尾删除任何数字。

相关内容

最新更新

热门标签：