len(df['education'].str.contains('Masters'))
45175
len(df['education'].str.contains('Bachelors'))
45175
df.shape
(45175, 12)
有人请解释一下。错误在哪里?
尝试打印df['education'].str.contains('Bachelors')
和df['education'].str.contains('Masters')
的内容。您会看到两者都是布尔类型的Pandas系列:例如,考虑到df['education'].str.contains('Bachelors')
,当给定的行包含Bachelors
时,它被设置为True
,否则,它被设为False
,这导致该系列具有与df['education']
相同的行数。
你感兴趣的是df[df['education'].str.contains('Bachelors')==True]
和df[df['education'].str.contains('Masters')==True]
。