Flink 哈希联接超出了最大递归错误数



发生了什么:我在flink中连接两个数据集时遇到以下错误:

Hash join exceeded maximum number of recursions, without reducing partitions enough to be memory resident. Probably cause: Too many duplicate keys.

我有两个数据集,一个大数据集和一个数据集小数据集,所以我使用了第二个join.Hint as Repartition哈希,但我仍然面临同样的问题。

谁能解释一下这个异常的根本原因?

当"jion"出现在小型和大型数据集中时,可能会发生数据倾斜。将会有很多重新分区,我有一种感觉,你的问题可能与此有关。

相关内容

  • 没有找到相关文章

最新更新