我想在使用pandas创建的CSV文件中合并重复项。如果年份相同,并且去掉标点和空白的小写标题也相同,则将2个条目标识为重复项。
参见重复条目的示例:
<表类>
标题
年
cited_by_count
pdf_url
tbody><<tr>"文章title" 2022 34 "Unknown" "文章title" 2022 "Unknown" www.thisisalink.com/articleid.pdf 表类>
我相信,有人会有一个在线的这个,但是作为初学者,我想做的是:
df1 = df.loc[df.cited_by_count != "Unknown"].drop(['pdf_url'], axis=1) #slice by value and drop unwanted column
df2 = df.loc[df.pdf_url != "Unknown"].drop(['cited_by_count'], axis=1)
cols = ['Title', 'year']
df3 = pd.merge(df1,df2, on=cols, how='outer') #merge slices back
:
Title year cited_by_count pdf_url
0 Article title 2022 34 www.thisisalink.com/articleid.pdf