用另一个数据框架将Clean Str替换为Mysy STR

我有2组数据框架，如果它包含df2 ['fruits'] String

，我想清洁df1 ['fruits']

df1
Name    Fruits
--------------
Dina    Pineapple, [Y*]
Maria   PTC*, Apple
Johny   Durian, 1-6
Johny   5,6 Rambutan
Maria   Apple (Red), [Y] *
Dina    [Y] *, Peach88
Dina    Kiwi/Qiwi, PS*
df2
Fruits      tag
-------------
Apple       20
Pineapple   30
Rambutan    40
Durian      50
Apple (Red) 25
Peach88     55
Kiwi/Qiwi   25

我尝试了

df1.loc[df1['Fruits'].contains(df2['Fruits']),'Fruits'] = df2['Fruits']

但它显示

'系列'对象没有属性'包含'

所以我期望得到的是

df1
Name    Fruits
--------------
Dina    Pineapple
Maria   Apple
Johny   Durian
Johny   Rambutan
Maria   Apple (Red)
Dina    Peach88
Dina    Kiwi/Qiwi

使用 pandas.Series.str.extract：

reg = '(%s)' % '|'.join(df2['Fruits'])
# Make regex expression using df2['Fruits']
df1['Fruits'] = df1['Fruits'].str.extract(reg)

输出：

    Name     Fruits
0   Dina  Pineapple
1  Maria      Apple
2  Johny     Durian
3  Johny   Rambutan

'(%s)' % '|'.join(df2['Fruits'])的解释：

'|'.join(df2['Fruits'])：创建|在REGEX中为or操作的分离单词。返回Pineapple|Apple|Durian|Rambutan
(%s) % ...：这称为 string格式，等效于：
- str.format：'({})'.format('|'.join(df2['Fruits']))，
- 或更多隐式(但更少的Pythonic('(' + '|'.join(df2['Fruits']) + ')'
- 所有这些返回(Apple|Pineapple|Rambutan|Durian)，A 捕获组，pd.Series.str.extract必须知道要提取什么。

相关内容

最新更新

热门标签：