Pandas KeyError:值不在索引中



我有以下代码,

df = pd.read_csv(CsvFileName)
p = df.pivot_table(index=['Hour'], columns='DOW', values='Changes', aggfunc=np.mean).round(0)
p.fillna(0, inplace=True)
p[["1Sun", "2Mon", "3Tue", "4Wed", "5Thu", "6Fri", "7Sat"]] = p[["1Sun", "2Mon", "3Tue", "4Wed", "5Thu", "6Fri", "7Sat"]].astype(int)

它一直在工作,直到csv文件没有足够的覆盖范围(所有工作日)。例如,使用以下.csv文件,

DOW,Hour,Changes
4Wed,01,237
3Tue,07,2533
1Sun,01,240
3Tue,12,4407
1Sun,09,2204
1Sun,01,240
1Sun,01,241
1Sun,01,241
3Tue,11,662
4Wed,01,4
2Mon,18,4737
1Sun,15,240
2Mon,02,4
6Fri,01,1
1Sun,01,240
2Mon,19,2300
2Mon,19,2532

我会得到以下错误:

KeyError: "['5Thu' '7Sat'] not in index"

它似乎有一个非常容易的修复程序,但我对Python太陌生了,不知道如何修复它。

使用reindex获取所需的所有列。它将保留已经存在的那些,否则将放在空列中。

p = p.reindex(columns=['1Sun', '2Mon', '3Tue', '4Wed', '5Thu', '6Fri', '7Sat'])

因此,您的整个代码示例应该如下所示:

df = pd.read_csv(CsvFileName)
p = df.pivot_table(index=['Hour'], columns='DOW', values='Changes', aggfunc=np.mean).round(0)
p.fillna(0, inplace=True)
columns = ["1Sun", "2Mon", "3Tue", "4Wed", "5Thu", "6Fri", "7Sat"]
p = p.reindex(columns=columns)
p[columns] = p[columns].astype(int)

我遇到了一个非常类似的问题。我得到了同样的错误,因为csv在标题中包含空格。我的csv包含一个标题"性别",我把它列为:

[['Gender']]

如果访问csv足够容易,可以使用excel公式trim()来剪裁单元格的任何空格。

或者像这个一样删除它

df.columns = df.columns.to_series().apply(lambda x: x.strip())

请尝试清理并格式化列名:

df.columns = (df.columns.str.strip().str.upper()
              .str.replace(' ', '_')
              .str.replace('(', '')
              .str.replace(')', ''))

我遇到了同样的问题。

在第一次开发过程中,我使用了一个.csv文件(逗号作为分隔符),在保存之前我对其进行了一些修改。保存后,逗号变成了分号。

在Windows上,它依赖于"区域和语言选项"自定义屏幕,您可以在其中找到列表分隔符。这是Windows应用程序期望作为CSV分隔符的字符。

当从一个全新的文件进行测试时,我遇到了这个问题。

我已经删除了read_csv方法中的"sep"参数之前:

df1 = pd.read_csv('myfile.csv', sep=',');

之后:

df1 = pd.read_csv('myfile.csv');

这样,问题就消失了。

最新更新