我的数据库中有两个表。每个表有1亿行。
有没有一种方法可以使用apachespark以最快的方式连接这两个表并提取数据?
我认为最有效的方法是使用DataFrames并调用join
,然后遵循任何其他标准。好处是,某些过滤器或选择将尽可能向下推,以减少网络负载。。。将仅提取所需的数据。
如果没有更多的信息,这是我能给出的最好的建议。