我正在尝试提取具有三个匹配列的行:员工、新日期和原始日期。我需要查看员工是否在同一日期有多个更改(行(。
输入:
EmployeeName | 编辑日期 | 新日期原始日期|
---|---|---|
Gonzales,Dave | ||
Gonzales,Dave | 21年4月2日上午8:31 | |
Gonzales,Dave | 21年4月2日上午8:32 | |
Smith,Matthew | ||
Smith,Matthew | ||
Smith,Matthew | ||
Terry,Jennifer | 21年3月26日上午10:54 | 2021年3月24日 | 空
Vincent,Jim | ||
Vincent,Jim | ||
Vincent,Jim | ||
Vincent,Jim |
您可能需要了解;pandasql";图书馆它允许您使用SQL代码来操作数据。在这里,熊猫的数据帧将是表。
import pandasql as psql
result = psql.sqldf('''
SELECT *
FROM df''')
试试这个:
df = df[~df.duplicated(subset=['EmployeeName','NewDate','OriginalDate'], keep='first')]
有关详细信息,请参阅此链接https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html