带有MultiIndex列的Pandas read_csv



我有一个csv文件,如下所示:

;a1;;;;;;a2;;;;;
;b1;;;b2;;;b1;;;b2;;
;c1;c2;c3;c1;c2;c3;c1;c2;c3;c1;c2;c3
0;0.9803;0.6223;0.3398;0.1376;0.3197;0.4410;0.9854;0.2557;0.4300;0.2170;0.4303;0.2307
1;0.1125;0.2934;0.8716;0.4591;0.4254;0.1810;0.6816;0.7632;0.7135;0.1945;0.0215;0.1310
2;0.1479;0.3473;0.1396;0.1298;0.9051;0.7637;0.9413;0.0467;0.9106;0.2931;0.0108;0.0220
3;0.6559;0.3842;0.8389;0.4315;0.2748;0.2193;0.9306;0.6496;0.6549;0.0835;0.8225;0.0136

当与熊猫一起阅读时,我得到:

df = pd.read_csv(file_path, delimiter=";", header=[0,1,2], index_col=0)
print(df)
a1 Unnamed: 2_level_0 Unnamed: 3_level_0 Unnamed: 4_level_0      a2 Unnamed: 6_level_0 Unnamed: 7_level_0 Unnamed: 8_level_0
b1 Unnamed: 2_level_1                 b2 Unnamed: 4_level_1      b1 Unnamed: 6_level_1                 b2 Unnamed: 8_level_1
c1                 c2                 c1                 c2      c1                 c2                 c1                 c2
0  0.6979             0.1863             0.4639             0.3777  0.7896             0.3321             0.8255             0.1357
1  0.8593             0.4796             0.4800             0.6605  0.3322             0.8397             0.5421             0.5000
2  0.0205             0.0679             0.3378             0.0636  0.9365             0.4386             0.4939             0.9106
3  0.0052             0.2623             0.8616             0.6671  0.6522             0.8673             0.0300             0.6935

如何使panda将标头识别为MultiIndex,并在没有未命名列的情况下获得此输出?

a1                                                               a2
b1                                    b2                         b1                              b2
c1                 c2                 c1                 c2      c1                 c2                 c1                 c2
0  0.6979             0.1863             0.4639             0.3777  0.7896             0.3321             0.8255             0.1357
1  0.8593             0.4796             0.4800             0.6605  0.3322             0.8397             0.5421             0.5000
2  0.0205             0.0679             0.3378             0.0636  0.9365             0.4386             0.4939             0.9106
3  0.0052             0.2623             0.8616             0.6671  0.6522             0.8673             0.0300             0.6935

谢谢大家!

我认为任何合适的解决方案都必须以某种方式使用pandas.MultiIndex

您可以做的是将标题行(nrows=3(分别读取到DataFrame中,并将其转换为可以传递给pandas.MultiIndex.from_arrays()的列表列表。

诀窍是将选项keep_default_na设置为False,这样NaN的值就不会出现在生成的标头中。

headers = pd.read_csv(file_path, header=None, nrows=3, delimiter=';',
index_col=0, keep_default_na=False).values.tolist()
df = pd.read_csv(file_path, delimiter=';', header=[0, 1, 2], index_col=0)
df.columns = pd.MultiIndex.from_arrays(headers)
print(df)

这就给出了所需的输出:

a1                                              a2                                        
b1                      b2                      b1                      b2                
c1      c2      c3      c1      c2      c3      c1      c2      c3      c1      c2      c3
0  0.9803  0.6223  0.3398  0.1376  0.3197  0.4410  0.9854  0.2557  0.4300  0.2170  0.4303  0.2307
1  0.1125  0.2934  0.8716  0.4591  0.4254  0.1810  0.6816  0.7632  0.7135  0.1945  0.0215  0.1310
2  0.1479  0.3473  0.1396  0.1298  0.9051  0.7637  0.9413  0.0467  0.9106  0.2931  0.0108  0.0220
3  0.6559  0.3842  0.8389  0.4315  0.2748  0.2193  0.9306  0.6496  0.6549  0.0835  0.8225  0.0136

理论上,您还可以设计一种只读取文件一次的解决方案,然后在";未命名的"出现了——但这样的方法不太可靠(一般不应该假设头格式(。

相关内容

  • 没有找到相关文章

最新更新