Pandas-在不同的CSV中匹配值,然后将一列附加到原始文件中



这里是原始程序员。我的任务是清理以csv格式存储的医疗数据。

(请记住,当你读到这篇文章时,我只是一个初学者,所以感谢你的耐心(

我有一个文件,我们称之为data1,它看起来像这样:数据1.它有大约17000行/患者

inc_key是指唯一的患者ID。

我有另一个文件,我们称之为data2,它的格式完全相同,只是存储了不同的信息,但它包含数百万行/患者。

我的目标是,对于data1中的每一行/患者,我需要在data2中找到匹配的患者(inc_key值(,然后将相应的信息附加到data1中相同的患者(在该患者的末尾添加列(。

换句话说,除了inc_key值需要匹配之外,我需要合并这两个文件。

我正在使用熊猫模块,有人能帮我吗?

提前感谢任何帮助我的人,我只是一个初学者,非常感谢。

您正在寻找合并,

此处的文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

你可以像这样合并数据帧,

data1.merge(data2, on=['inc_key'], how='left')

如果在data2中找不到inc_key,那么您可以处理数据丢失,请使用内部联接。

你也可以从data2中选择你需要的列,然后像这样加入,

data1.merge(data2[list_of_columns + ['inc_key']], on=['inc_key'], how='left')

相关内容

  • 没有找到相关文章

最新更新