Pandas用于循环优化(矢量化),当查看前一行值时



我正在寻找优化与for循环的函数所花费的时间。下面的代码对于较小的数据框架是可以的,但是对于较大的数据框架,它花费的时间太长了。该函数基于使用其他列值和参数的计算有效地创建了一个新列。该计算还考虑其中一列的前一行值。我读到最有效的方法是使用Pandas向量化,但是当我的for循环考虑1列的前一行值来填充当前行的新列时,我很难理解如何实现这一点。我是一个完全的新手,但是我四处看了看,找不到任何适合这个特定问题的东西,尽管我是从一个相对无知的位置搜索的,所以可能遗漏了一些东西。

函数如下,我也创建了一个测试数据框和随机参数。如果有人能给我指出正确的方向,以缩短处理时间,那就太好了。提前谢谢。

def MODE_Gain (Data, rated, MODELim1, MODEin, Normalin,NormalLim600,NormalLim1):
print('Calculating Gains')
df = Data
df.fillna(0, inplace=True)
df['MODE'] = ""
df['Nominal'] = ""
df.iloc[0, df.columns.get_loc('MODE')] = 0
for i in range(1, (len(df.index))):
print('Computing Status{i}/{r}'.format(i=i, r=len(df.index)))
if ((df['MODE'].loc[i-1] == 1) & (df['A'].loc[i] > Normalin)) :
df['MODE'].loc[i] = 1
elif (((df['MODE'].loc[i-1] == 0) & (df['A'].loc[i] > NormalLim600))|((df['B'].loc[i] > NormalLim1) & (df['B'].loc[i] < MODELim1 ))):
df['MODE'].loc[i] = 1
else:
df['MODE'].loc[i] = 0
df[''] = (df['C']/6)
for i in range(len(df.index)):
print('Computing MODE Gains {i}/{r}'.format(i=i, r=len(df.index)))
if ((df['A'].loc[i] > MODEin) & (df['A'].loc[i] < NormalLim600)&(df['B'].loc[i] < NormalLim1)) :
df['Nominal'].loc[i] = rated/6
else:
df['Nominal'].loc[i] = 0
df["Upgrade"] = df[""] - df["Nominal"]

return df

A = np.random.randint(0,28,size=(8000))
B = np.random.randint(0,45,size=(8000))
C = np.random.randint(0,2300,size=(8000))
df = pd.DataFrame()
df['A'] = pd.Series(A)
df['B'] = pd.Series(B)
df['C'] = pd.Series(C)
MODELim600 = 32
MODELim30 = 28
MODELim1 = 39
MODEin = 23
Normalin = 20
NormalLim600 = 25
NormalLim1 = 32
rated = 2150
finaldf = MODE_Gain(df, rated, MODELim1, MODEin, Normalin,NormalLim600,NormalLim1)

第二个循环不计算前一行,所以您应该可以使用这个

df['Nominal'] = 0
df.loc[(df['A'] > MODEin) & (df['A'] < NormalLim600) & (df['B'] < NormalLim1), 'Nominal'] = rated/6

对于第一个循环,elif语句查找

的值。((df['B'].loc[i] > NormalLim1) & (df['B'].loc[i] < MODELim1 )),无论其他条件如何,都将其设置为1,因此可以删除该条件并对该操作进行矢量化。没试过,但应该可以了

df.loc[(df['B'].loc[i] > NormalLim1) & (df['B'].loc[i] < MODELim1 ), 'MODE'] = 1

则可以使用|

将其他条件合并为一个语句不知道所有这些会为你节省多少,但你应该减少一半的时间,摆脱第二个循环。

对于向量化,我建议您首先将您的列移到另一列:

df['MODE_1'] = df['MODE'].shift(1)

,然后使用:

(df['MODE_1'].loc[i] == 1) 
之后,你应该能够对 进行矢量化

最新更新