有一个包含last_element
和root
的DataFrame。
import pandas as pd
df_test = pd.DataFrame({"last_element":["2000A01.2 B003", "8000N02 B001"]*100000, "root":[None, "8000N02"]*100000})
df_test.head()
+----+----------------+---------+
| | last_element | root |
|----+----------------+---------|
| 0 | 2000A01.2 B003 | |
| 1 | 8000N02 B001 | 8000N02 |
| 2 | 2000A01.2 B003 | |
| 3 | 8000N02 B001 | 8000N02 |
| 4 | 2000A01.2 B003 | |
+----+----------------+---------+
如果root
为空,我们可以从last_element
中获取它。空格之前的值始终为root
。
我已经有了一个解决方案,但我想问一下是否有人有一个更快的解决方案,因为在真实世界的数据中,计算需要一分钟以上的时间。
解决方案1-功能
%%timeit
df_test = pd.DataFrame({"last_element":["2000A01.2 B003", "8000N02 B001"]*100000, "root":[None, "8000N02"]*100000})
def fill_root(row):
if pd.isna(row.root) & pd.notna(row.last_element):
return row.last_element.split(' ')[0]
else:
return row.root
df_test.assign(new_root = lambda x: x.apply(fill_root, axis=1))
时间:
5.14 s ± 41.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
解决方案2-应用
%%timeit
df_test['new_root'] = df_test.apply(lambda row: row.last_element.split(' ')[0] if pd.isna(row.root) else row.root, axis=1)
时间:
3.67 s ± 21.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
您可以使用掩码和df.loc
mask = df_test['root'].isnull()
df_test.loc[mask,'root'] = df_test.loc[mask, 'last_element'].str.split(' ').str[0]
# timeit
def function(df_test):
mask = df_test['root'].isnull()
df_test.loc[mask,'root'] = df_test.loc[mask, 'last_element'].str.split(' ').str[0]
%timeit function(df_test)
11.6 ms ± 494 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
您可以尝试使用np.where
df['new'] = np.where(df['root'].isna(),df['last_element'].str.split().str[0],df['root'])
或
df['root'].mask(df['root'].isna(),df['last_element'].str.split().str[0],inplace=True)
定时
#%timeit df_test['new_root'] = df_test.apply(lambda row: row.last_element.split(' ')[0] if pd.isna(row.root) else row.root, axis=1)
2.97 s ± 101 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
#%timeit df['new_root'] = df['root'].mask(df['root'].isna(),df['last_element'].str.split().str[0])
170 ms ± 348 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
#%timeit df['new_root'] = np.where(df['root'].isna(),df['last_element'].str.split().str[0],df['root'])
172 ms ± 2.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)