系列 [] 和 .loc[] 有时会返回单个值,有时会意外地返回包含相同值的单个元素系列



在下面的代码中,我试图在数据帧列中查找最长的字符串。

根据列的长度,下面的函数 (maxstr) 为短列返回单个值(如预期的那样),为长列返回单个元素系列(我没想到会这样)。

任何指示将不胜感激。

我使用了在 Pandas 数据帧列中查找最长字符串的长度中讨论的方法

import numpy as np
import pandas as pd

由于数据很大,因此我在进行过程中会选择在数据帧和序列上显示信息。

从剪贴板读取数据帧

df = pd.read_clipboard(sep='t', index_col=[0, 1, 2, 3, 4], na_values='')
print(f'{type(df)=}')
print(f'{df.shape=}')
print(f'{df.dtypes=}')
print(f'{df.columns=}')
type(df)=<class 'pandas.core.frame.DataFrame'>
df.shape=(581, 6)
df.dtypes=CID           int64
TITLE        object
FIRSTNAME    object
FUNCTION     object
PHONE        object
EMAIL        object
dtype: object
df.columns=Index(['CID', 'TITLE', 'FIRSTNAME', 'FUNCTION', 'PHONE', 'EMAIL'], dtype='object')

返回列/系列中等效的最大长度字符串的函数

def maxstr(ser: pd.Series):
print(f'{type(ser)=}')
print(f'n{type(ser.astype(str).str.len().idxmax())=}')
print(f'{type(ser[ser.astype(str).str.len().idxmax()])=}')
# should return a single value and not a series
return ser[ser.astype(str).str.len().idxmax()]

使用一小列(n = 50),我得到一个int(如预期的那样)

short = df.head(50)
short_return = maxstr(short['CID'])
type(ser)=<class 'pandas.core.series.Series'>
type(ser.astype(str).str.len().idxmax())=<class 'tuple'>
type(ser[ser.astype(str).str.len().idxmax()])=<class 'numpy.int64'>

使用来自同一数据帧(相同数据)(n = 100)的长列,我得到一个系列(不预期??

long = df.head(100)
long_return = maxstr(long['CID'])
type(ser)=<class 'pandas.core.series.Series'>

type(ser.astype(str).str.len().idxmax())=<class 'tuple'>
type(ser[ser.astype(str).str.len().idxmax()])=<class 'pandas.core.series.Series'>

这两种情况下,我们都会找到相同的 int 值(但一个在系列中,另一个作为单个值)

short_return == long_return.iloc[0]
True

int 值是唯一的,因此它在数据帧列中出现一次

value = short_return
print(f'The value: {value=}')
print(f'{sum(short["CID"] == value)=}')
print(f'{sum(long["CID"] == value)=}')
The value: value=1937
sum(short["CID"] == value)=1
sum(long["CID"] == value)=1

在我看来,问题是重复的索引值,所以如果返回idxmax重复的tuple,则返回的不是标量,而是选择中的所有重复行。

避免它的简单解决方案是创建默认索引,此处更改:

df = pd.read_clipboard(sep='t', index_col=[0, 1, 2, 3, 4], na_values='')

自:

df = pd.read_clipboard(sep='t', na_values='')

没有MultiIndex,但默认RangeIndex

检查它是否RangeIndex

print (df.index)
如果需要MultiIndex

解决方案是删除重复的值:

df = pd.read_clipboard(sep='t', index_col=[0, 1, 2, 3, 4], na_values='')
df = df[~df.index.duplicated()]

最新更新