在Python中合并重复项(选择字段)



我想在使用pandas创建的CSV文件中合并重复项。如果年份相同,并且去掉标点和空白的小写标题也相同,则将2个条目标识为重复项。

参见重复条目的示例:

<表类> 标题 年 cited_by_count pdf_url tbody><<tr>"文章title"202234"Unknown""文章title"2022"Unknown"www.thisisalink.com/articleid.pdf

我相信,有人会有一个在线的这个,但是作为初学者,我想做的是:

df1 = df.loc[df.cited_by_count != "Unknown"].drop(['pdf_url'], axis=1) #slice by value and drop unwanted column
df2 = df.loc[df.pdf_url != "Unknown"].drop(['cited_by_count'], axis=1)
cols = ['Title', 'year']
df3 = pd.merge(df1,df2, on=cols, how='outer') #merge slices back

:

Title  year cited_by_count                            pdf_url
0  Article title  2022             34  www.thisisalink.com/articleid.pdf

最新更新