使用apachespark对两个巨大的表执行联接操作



我的数据库中有两个表。每个表有1亿行。

有没有一种方法可以使用apachespark以最快的方式连接这两个表并提取数据?

我认为最有效的方法是使用DataFrames并调用join,然后遵循任何其他标准。好处是,某些过滤器或选择将尽可能向下推,以减少网络负载。。。将仅提取所需的数据。

如果没有更多的信息,这是我能给出的最好的建议。

相关内容

  • 没有找到相关文章

最新更新