如何在保持冲突值的同时以异或方式合并/加入/合并 2 个系列

我有以下数据帧，其中''被视为空：

df = pd.DataFrame({1: ['a', 'b', 'c']+ ['']*2, 2: ['']*2+ ['d','e', 'f']})
1  2
0  a  '' 
1  b  '' 
2  c  d
3  '' e
4  '' f

如何将 col2 合并/加入/合并(我不知道正确的术语(到 col1 中，以便我有：

1  2
0  a ''  
1  b ''  
2  c  d
3  e '' 
4  f ''

或者如果我决定将 col1 合并到 col2 中：

1  2
0 ''  a
1 ''  b
2  c  d
3 ''  e
4 ''  f

我希望能够决定合并哪个 col，而另一个 col 应该包含冲突值。提前谢谢你

您还可以将combine_first 方法用于矢量化(且更简单(版本：

df[1].replace('', np.nan).combine_first(df[2])

结果在：

您还可以同时获取两列：

df.replace('', np.nan).combine_first(df.rename(columns={1: 2, 2: 1}))

结果在：

1  2
0  a  a
1  b  b
2  c  d
3  e  e
4  f  f

您可以使用数据帧方法执行此操作apply()：

示例数据：

定义任意变量：

merge_to_column = 2
other_column = 1

使用应用：

df['output'] = df.apply(lambda x: x[other_column] if x[merge_to_column] == '' else x[merge_to_column], axis=1)

输出：

df
1  2 output
0  a         a
1  b         b
2  c  d      d
3     e      e
4     f      f

def merge(col1, col2):
for x in range(len(col1)):
if col1[x] == '':
col1[x] = col2[x]
col2[x] = ''

此函数会将 col2 中的值合并到 col1 中，并在其中找到引号，假设两列的大小相同。您可以根据需要处理不同的尺寸。

你可以使用 .fillna((：

df[1] = df[1].fillna(df[2])

然后你从 df[2] 中取出值，进行碰撞：

df[2] = [None if r[1] == r[2] else r[2] for _, r in df.iterrows()]

输出：

1   2
0    a   None
1    b   None
2    c   d
3    e   None
4    f   None

请注意，在这种情况下，您必须使用 None 而不是使用"作为空值：

df = pd.DataFrame({1: ['a', 'b', 'c']+[None]*2, 2: [None]*2+['d','e', 'f']})

相关内容