如何确保Spark Data Source V2中的数据位置



i实现Spark Data Source(V2),我没有找到确保数据局部性的方法。

可以实现数据源V1 getPreferredLocations方法,数据源V2中的等效是什么?

在火花数据源V2中,您应该更改为SupportSreportPartixtioning

我看到有人在此期间讨论了一些限制SPARK -15689-数据源API V2

so supportsreportpartienting 还不足以支持自定义哈希功能。有两个主要的运营商可能会引入洗牌:加入和汇总。汇总只需要将数据群集放在,但不在乎如何,因此数据源V2可以支持它,如果您的实现捕获了clusteredDistribution。加入需要由Spark Shuffle Hash功能聚集的两个孩子的数据,该功能不受数据源V2的支持。

相关内容

  • 没有找到相关文章

最新更新