Pandas用NaN值填充列中的单元格,并从该行中的其他单元格派生该值



我有一个数据框架:

     a    b      c
0    1    2      3 
1    1    1      1
2    3    7      NaN
3    2    3      5
...

我想用机器学习算法填充"3"列(更新值),其中值为NaN。

我不知道该怎么做。示例代码:

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
df=pd.DataFrame([range(3), [1, 5, np.NaN], [2, 2, np.NaN], [4,5,9], [2,5,7]],columns=['a','b','c'])
x=[]
y=[]
for row in df.iterrows():
    index,data = row
    if(not pd.isnull(data['c'])):
        x.append(data[['a','b']].tolist())
        y.append(data['c'])
model = LinearRegression()
model.fit(x,y)
#this line does not do it in place.
df[~df.c.notnull()].assign(c = lambda x:model.predict(x[['a','b']]))

但是这给了我一个数据框架的副本。我剩下的唯一选择是使用for循环,然而,我不想这样做。我认为应该有更python化的方式来使用pandas。有人能帮帮我吗?或者还有别的办法吗?

你必须这样做:

df.loc[pd.isnull(df['three']), 'three'] = _result of model_

直接修改数据帧df

这样,您首先过滤数据帧以保留您想要修改的片(pd.isnull(df['three'])),然后从该片中选择您想要修改的列(three)。

在等式的右侧,它期望得到一个数组/列表/序列,其行数与过滤后的数据帧(在您的示例中为一行)相同

您可能需要根据您的模型返回的内容进行调整

编辑

你可能需要这样做

pred = model.predict(df[['a', 'b']])
df['pred'] = model.predict(df[['a', 'b']])
df.loc[pd.isnull(df['c']), 'c'] = df.loc[pd.isnull(df['c']), 'pred']

请注意,问题的很大一部分来自您在示例中使用scikit learn的方式。当你预测时,你需要将整个数据集传递给模型。

最简单的方法是先转置,然后在方便时向前填充/向后填充。df.T.ffill().bfill().T

相关内容

  • 没有找到相关文章

最新更新