重命名熊猫中的多个列

我有一个CSV文件，我想在其中重命名一些同名的列。我的初始代码如下所示

df = pd.read_csv('New.csv')

我使用此代码从数据帧中提取了选定的列

df.columns[1::3]

此切片每隔三列获取一次。现在我想用相同的名称重命名每三列一次但是尝试像这样重命名我的列给我一个错误

df.columns[1::3]= ['SomeName']
raise TypeError("Index does not support mutable operations")

有什么方法可以在熊猫中重命名具有相同名称的多个列吗？

除了手动执行此操作之外还有其他建议吗？

我认为这里最好的是使用带有唯一新列名称的rename，例如：

df = pd.DataFrame({'A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb')})
print (df)
A  B  C  D  E  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b
d = dict(zip(df.columns[1::3], range(len(df.columns[1::3]))))
print (d)
{'B': 0, 'E': 1}

df = df.rename(columns=d)
print (df)
A  0  C  D  1  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

或：

d = dict(zip(df.columns[1::3], 
['name{}'.format(x) for x in range(len(df.columns[1::3]))]))
print (d)
{'B': 'name0', 'E': 'name1'}
df = df.rename(columns=d)
print (df)
A  name0  C  D  name1  F
0  a      4  7  1      5  a
1  b      5  8  3      3  a
2  c      4  9  5      6  a
3  d      5  4  7      9  b
4  e      5  2  1      2  b
5  f      4  3  0      4  b

不推荐的解决方案是重命名相同的列名：

d = dict.fromkeys(df.columns[1::3], 'Name')
print (d)
{'B': 'Name', 'E': 'Name'}
df = df.rename(columns=d)
print (df)
A  Name  C  D  Name  F
0  a     4  7  1     5  a
1  b     5  8  3     3  a
2  c     4  9  5     6  a
3  d     5  4  7     9  b
4  e     5  2  1     2  b
5  f     4  3  0     4  b

因为如果需要 seelct 列Name它会返回DataFrame中的所有列：

print (df['Name'])
Name  Name
0     4     5
1     5     3
2     4     6
3     5     9
4     5     2
5     4     4

df.columns 属于pandas.indexes.base.Index类型，这就是您获得 TypeError 的原因。如果将其转换为列表，则可以使用切片更新(重命名)，并将 df.columns 设置为该更新的列表。

这对我有用：

lst = list(df.columns)
lst[1::3] = ['someName']*len(lst[1::3])
df.columns = lst

或者具有唯一的新列名称(如@jezrael指出的那样，可能不建议使用相同的名称)：

lst = list(df.columns)
lst[1::3] = ['someName{}'.format(x) for x in range(len(lst[1::3]))] 
df.columns = lst

基础pandas索引对象是numpy数组。

您可以利用这一事实使用numpy约定进行切片和分配。

来自@jezrael的数据。此已知问题需要显式提取值。

df = pd.DataFrame({'A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb')})
arr = df.columns.values
arr[1::3] = range(2)
df.columns = arr
print(df)
A  0  C  D  1  F
0  a  4  7  1  5  a
1  b  5  8  3  3  a
2  c  4  9  5  6  a
3  d  5  4  7  9  b
4  e  5  2  1  2  b
5  f  4  3  0  4  b

相关内容

最新更新

热门标签：