我见过很多方法,比如concat、join、merge,但我缺少简单数据集的技术。我有两个数据集,看起来像下面提到的
dates.csv
2020-07-06
2020-07-07
2020-07-08
2020-07-09
2020-07-10
.....
...
...
mydata.csv
Expected,Predicted
12990,12797.578628473471
12990,12860.382061836583
12990,12994.159035827917
12890,13019.073929662367
12890,12940.34108357684
.............
.......
.....
我想把这两个数据集结合起来,它们在btoh csv文件上有相同的行数。我试过concat方法,但我看到了NaN的
delete = dates.csv (pd.DataFrame)
data1 = mydata.csv (pd.DataFrame)
result = pd.concat([delete, data1], axis=0, ignore_index=True)
print(result)
Output:
0 Expected Predicted
0 2020-07-06 NaN NaN
1 2020-07-07 NaN NaN
2 2020-07-08 NaN NaN
3 2020-07-09 NaN NaN
4 2020-07-10 NaN NaN
.. ... ... ...
307 NaN 10999.0 10526.433098
308 NaN 10999.0 10911.247147
309 NaN 10490.0 11038.685328
310 NaN 10490.0 10628.204624
311 NaN 10490.0 10632.495169
[312 rows x 3 columns]
我不想要所有的NaN。
谢谢你的帮助!
您可以使用pandas中的.join((方法。
delete = dates.csv (pd.DataFrame)
data1 = mydata.csv (pd.DataFrame)
result = delete.join(data1)
如果你的两个数据帧遵循相同的顺序,你可以使用Nik提出的连接方法,默认情况下它在索引上连接。
否则,如果你有一个可以加入数据帧的密钥,你可以这样指定:
joined_data = first_df.join(second_df, on=key)
然后,您的first_df和second_df应该共享一个具有相同名称的列来加入。