我很困惑为什么在创建多个列时括号[]和.loc的行为会有所不同。我研究了其他类似的问题,但无法得到答案。
例如,
>>> dates = pd.date_range('1/1/2000', periods=8)
>>> df = pd.DataFrame(np.random.randn(8, 4), index=dates, columns=['A', 'B', 'C', 'D'])
>>> df
A B C D
2000-01-01 -1.011264 -1.751948 0.059012 0.514253
2000-01-02 0.596959 0.348866 -1.011628 0.950259
2000-01-03 0.305281 0.486400 -1.034534 -1.523402
2000-01-04 -0.880457 0.379837 2.023866 1.588379
2000-01-05 -1.142070 -0.168992 -0.391355 0.809820
2000-01-06 -0.335015 0.721563 -0.665120 -1.097811
2000-01-07 -0.160611 -0.601393 -0.257349 -0.830527
2000-01-08 0.197624 -0.082786 1.335873 -0.841006
如果我使用括号创建多个列,则可以如下。
>>> df[['E','F']] = df[['A','B']]
>>> df
A B C D E F
2000-01-01 -1.011264 -1.751948 0.059012 0.514253 -1.011264 -1.751948
2000-01-02 0.596959 0.348866 -1.011628 0.950259 0.596959 0.348866
2000-01-03 0.305281 0.486400 -1.034534 -1.523402 0.305281 0.486400
2000-01-04 -0.880457 0.379837 2.023866 1.588379 -0.880457 0.379837
2000-01-05 -1.142070 -0.168992 -0.391355 0.809820 -1.142070 -0.168992
2000-01-06 -0.335015 0.721563 -0.665120 -1.097811 -0.335015 0.721563
2000-01-07 -0.160611 -0.601393 -0.257349 -0.830527 -0.160611 -0.601393
2000-01-08 0.197624 -0.082786 1.335873 -0.841006 0.197624 -0.082786
但是,如果我使用.loc方法来创建多个列,则它不起作用。
>>> df.loc[:,['H','I']] = df[['A','B']]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:Pythonlibsite-packagespandascoreindexing.py", line 189, in __setitem__
indexer = self._get_setitem_indexer(key)
File "C:Pythonlibsite-packagespandascoreindexing.py", line 167, in _get_setitem_indexer
return self._convert_tuple(key, is_setter=True)
File "C:Pythonlibsite-packagespandascoreindexing.py", line 248, in _convert_tuple
idx = self._convert_to_indexer(k, axis=i, is_setter=is_setter)
File "C:Pythonlibsite-packagespandascoreindexing.py", line 1354, in _convert_to_indexer
return self._get_listlike_indexer(obj, axis, **kwargs)[1]
File "C:Pythonlibsite-packagespandascoreindexing.py", line 1161, in _get_listlike_indexer
raise_missing=raise_missing)
File "C:Pythonlibsite-packagespandascoreindexing.py", line 1246, in _validate_read_indexer
key=key, axis=self.obj._get_axis_name(axis)))
KeyError: "None of [Index(['H', 'I'], dtype='object')] are in the [columns]"
.loc方法仅创建一个列时运行良好。(方括号也可以工作。)
>>> df.loc[:,'G'] = df['A']
>>> df
A B C D E F G
2000-01-01 -1.011264 -1.751948 0.059012 0.514253 -1.011264 -1.751948 -1.011264
2000-01-02 0.596959 0.348866 -1.011628 0.950259 0.596959 0.348866 0.596959
2000-01-03 0.305281 0.486400 -1.034534 -1.523402 0.305281 0.486400 0.305281
2000-01-04 -0.880457 0.379837 2.023866 1.588379 -0.880457 0.379837 -0.880457
2000-01-05 -1.142070 -0.168992 -0.391355 0.809820 -1.142070 -0.168992 -1.142070
2000-01-06 -0.335015 0.721563 -0.665120 -1.097811 -0.335015 0.721563 -0.335015
2000-01-07 -0.160611 -0.601393 -0.257349 -0.830527 -0.160611 -0.601393 -0.160611
2000-01-08 0.197624 -0.082786 1.335873 -0.841006 0.197624 -0.082786 0.197624
我对为什么.loc在创建多个列中没有用作方括号感到困惑。我更喜欢明确的方式,就像.loc []一样,我对其功能有时受到限制的事实感到困扰。我想念什么吗?我可以问为什么他们在这种情况下的工作方式有所不同?
*与原始问题的补充 *
.loc []方法将其分配给现有列时会生成NAN列。例如,
>>>df[['E','F']] = df[['A','B']]
>>> df
A B ... E F
2000-01-01 0.934380 -0.321112 ... 0.934380 -0.321112
2000-01-02 -0.760045 0.646212 ... -0.760045 0.646212
2000-01-03 0.645231 -0.910008 ... 0.645231 -0.910008
2000-01-04 -1.117132 2.595804 ... -1.117132 2.595804
2000-01-05 -1.273579 0.291202 ... -1.273579 0.291202
2000-01-06 0.142610 -0.368157 ... 0.142610 -0.368157
2000-01-07 0.567490 -1.598343 ... 0.567490 -1.598343
2000-01-08 1.300694 0.498405 ... 1.300694 0.498405
i生成了新列E,F,并尝试使用.loc []方法从C,D分配新值。
>>>df.loc[:,['E','F']] = df[['C','D']]
>>>df
A B C D E F
2000-01-01 0.934380 -0.321112 0.747195 -0.991180 NaN NaN
2000-01-02 -0.760045 0.646212 -0.121421 2.262384 NaN NaN
2000-01-03 0.645231 -0.910008 0.170989 -1.552823 NaN NaN
2000-01-04 -1.117132 2.595804 0.569809 1.575253 NaN NaN
2000-01-05 -1.273579 0.291202 0.688443 -0.581674 NaN NaN
2000-01-06 0.142610 -0.368157 -0.674774 -1.961087 NaN NaN
2000-01-07 0.567490 -1.598343 -1.346179 -1.139205 NaN NaN
2000-01-08 1.300694 0.498405 -0.358015 -1.637471 NaN NaN
似乎使用.loc []仍然会遇到问题。
正如先前所说的那样是故意完成的。这里有几个例子:
看起来与__getitem__
有关,当使用[]
让我们看一些错误:
df['H']
将模拟错误返回到df.loc[:,'H']
似乎都使用pandascoreframe.py __getitem__
,这就是为什么它们在设置时行为相同的原因:
df['H'] = df['A']
df.loc[:, 'H'] = df['A']
当您将loc
与列表(df.loc[:, ['H', 'I']]
或df.loc[:, ['H']]
)一起使用时,它不再使用pandascoreframe.py __getitem__
,它使用pandascoreindexing.py __getitem__
将raise_missing
设置为_validate_read_indexer
此功能中有评论提供一些信息:
# We (temporarily) allow for some missing keys with .loc, except in
# some cases (e.g. setting) in which "raise_missing" will be False
df[['H','I']]
使用pandascoreframe.py __getitem__
,这就是为什么设置时没有错误的原因。
这只是我对正在发生的事情的猜测。
您在文档中解释了有关df.loc[:,['E','F']] = df[['C','D']]
的另一个问题,"交换列值的正确方法是使用原始值"。您应该使用to_numpy()
:df.loc[:,['E','F']] = df[['C','D']].to_numpy()
这是在0.21.0之后向熊猫投入的意图行为。
错误消息的根部是此部分,其中dataframe中缺少" H"或" I":
df.loc[:,['H','I']]
使用带有.loc和缺少值的列表会引起键盘。