在spark中,我们可以在相同大小的表上执行广播连接吗



从文本文件中读取,解析它,然后进行一些基本过滤以获得数据1(6GB(

data1.registerTempTable('data1')

从文本文件中读取,解析它,然后进行一些基本的过滤,以获得数据1(5.9GB或相当于6GB(

data2.registerTempTable('data2')

执行加入

data_joined = data1.join(broadcast(data2), data1.id == data2.id,"left")

是的,你可以用6GB做上面提到的大数据帧的广播连接,只要你有足够的内存来处理每个节点中的执行和存储,你还需要等待通过网络传输数据的时间。如果您的资源足够,您可以尝试并比较两种情况之间的时间差。

最新更新