内部连接hdf5数据框架vex python



我需要比较两个csv并进行内部连接。我使用的是比熊猫快的vaex,但在一个点后卡住了。我的代码是与熊猫工作,但它很慢。我怎么能内部连接两个hdf5类型的文件,并在csv中得到输出。

我的代码
vaex_df1 = vaex.from_csv(file1,convert=True, chunk_size=5_000)
vaex_df2 = vaex.from_csv(file2,convert=True, chunk_size=5_000)
vaex_df1 = vaex.open(file1+'.hdf5')
vaex_df2 = vaex.open(file2+'.hdf5')
print(type(vaex_df1),vaex_df1)
print(type(vaex_df2),vaex_df2)
df_join = pd.merge(vaex_df1,vaex_df2,how='inner',left_on ='CL_CLIENT_ID',right_on='CL_CLIENT_ID')
df_join.to_csv('C:\Users\abcDesktop\New folder\file3.csv')
print("succes in compare")

当我们在pandas中合并时,是否有一种方法可以在vaex中进行内连接,因为我在互联网上找不到太多。df_join=pd.merge’这是显而易见的。

vaex教程有一个关于加入的章节:https://vaex.io/docs/tutorial.html#Joining。该API看起来与熊猫的API相同。试一试:

df_join = vaex_df1.join(vaex_df2, 
how='inner', 
left_on ='CL_CLIENT_ID',
right_on='CL_CLIENT_ID')

相关内容

  • 没有找到相关文章

最新更新