小贝子编程

如何确保Spark Data Source V2中的数据位置

本文关键字：V2 Source 位置数据 Data Spark 何确保确保 apache-spark apache-spark-sql datasource
更新时间 : 2023-09-10
英文 : How to ensure data locality in Spark data source v2?

i实现Spark Data Source（V2），我没有找到确保数据局部性的方法。

可以实现数据源V1 getPreferredLocations方法，数据源V2中的等效是什么？

在火花数据源V2中，您应该更改为SupportSreportPartixtioning

我看到有人在此期间讨论了一些限制SPARK -15689-数据源API V2

so supportsreportpartienting 还不足以支持自定义哈希功能。有两个主要的运营商可能会引入洗牌：加入和汇总。汇总只需要将数据群集放在，但不在乎如何，因此数据源V2可以支持它，如果您的实现捕获了clusteredDistribution。加入需要由Spark Shuffle Hash功能聚集的两个孩子的数据，该功能不受数据源V2的支持。

如何确保Spark Data Source V2中的数据位置

相关内容

最新更新

热门标签：