我有一个csv文件,如下所示:
;a1;;;;;;a2;;;;;
;b1;;;b2;;;b1;;;b2;;
;c1;c2;c3;c1;c2;c3;c1;c2;c3;c1;c2;c3
0;0.9803;0.6223;0.3398;0.1376;0.3197;0.4410;0.9854;0.2557;0.4300;0.2170;0.4303;0.2307
1;0.1125;0.2934;0.8716;0.4591;0.4254;0.1810;0.6816;0.7632;0.7135;0.1945;0.0215;0.1310
2;0.1479;0.3473;0.1396;0.1298;0.9051;0.7637;0.9413;0.0467;0.9106;0.2931;0.0108;0.0220
3;0.6559;0.3842;0.8389;0.4315;0.2748;0.2193;0.9306;0.6496;0.6549;0.0835;0.8225;0.0136
当与熊猫一起阅读时,我得到:
df = pd.read_csv(file_path, delimiter=";", header=[0,1,2], index_col=0)
print(df)
a1 Unnamed: 2_level_0 Unnamed: 3_level_0 Unnamed: 4_level_0 a2 Unnamed: 6_level_0 Unnamed: 7_level_0 Unnamed: 8_level_0
b1 Unnamed: 2_level_1 b2 Unnamed: 4_level_1 b1 Unnamed: 6_level_1 b2 Unnamed: 8_level_1
c1 c2 c1 c2 c1 c2 c1 c2
0 0.6979 0.1863 0.4639 0.3777 0.7896 0.3321 0.8255 0.1357
1 0.8593 0.4796 0.4800 0.6605 0.3322 0.8397 0.5421 0.5000
2 0.0205 0.0679 0.3378 0.0636 0.9365 0.4386 0.4939 0.9106
3 0.0052 0.2623 0.8616 0.6671 0.6522 0.8673 0.0300 0.6935
如何使panda将标头识别为MultiIndex,并在没有未命名列的情况下获得此输出?
a1 a2
b1 b2 b1 b2
c1 c2 c1 c2 c1 c2 c1 c2
0 0.6979 0.1863 0.4639 0.3777 0.7896 0.3321 0.8255 0.1357
1 0.8593 0.4796 0.4800 0.6605 0.3322 0.8397 0.5421 0.5000
2 0.0205 0.0679 0.3378 0.0636 0.9365 0.4386 0.4939 0.9106
3 0.0052 0.2623 0.8616 0.6671 0.6522 0.8673 0.0300 0.6935
谢谢大家!
我认为任何合适的解决方案都必须以某种方式使用pandas.MultiIndex
。
您可以做的是将标题行(nrows=3
(分别读取到DataFrame
中,并将其转换为可以传递给pandas.MultiIndex.from_arrays()
的列表列表。
诀窍是将选项keep_default_na
设置为False
,这样NaN
的值就不会出现在生成的标头中。
headers = pd.read_csv(file_path, header=None, nrows=3, delimiter=';',
index_col=0, keep_default_na=False).values.tolist()
df = pd.read_csv(file_path, delimiter=';', header=[0, 1, 2], index_col=0)
df.columns = pd.MultiIndex.from_arrays(headers)
print(df)
这就给出了所需的输出:
a1 a2
b1 b2 b1 b2
c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3
0 0.9803 0.6223 0.3398 0.1376 0.3197 0.4410 0.9854 0.2557 0.4300 0.2170 0.4303 0.2307
1 0.1125 0.2934 0.8716 0.4591 0.4254 0.1810 0.6816 0.7632 0.7135 0.1945 0.0215 0.1310
2 0.1479 0.3473 0.1396 0.1298 0.9051 0.7637 0.9413 0.0467 0.9106 0.2931 0.0108 0.0220
3 0.6559 0.3842 0.8389 0.4315 0.2748 0.2193 0.9306 0.6496 0.6549 0.0835 0.8225 0.0136
理论上,您还可以设计一种只读取文件一次的解决方案,然后在";未命名的"出现了——但这样的方法不太可靠(一般不应该假设头格式(。