发生了什么:我在flink中连接两个数据集时遇到以下错误:
Hash join exceeded maximum number of recursions, without reducing partitions enough to be memory resident. Probably cause: Too many duplicate keys.
我有两个数据集,一个大数据集和一个数据集小数据集,所以我使用了第二个join.Hint as Repartition
哈希,但我仍然面临同样的问题。
谁能解释一下这个异常的根本原因?
当"jion"出现在小型和大型数据集中时,可能会发生数据倾斜。将会有很多重新分区,我有一种感觉,你的问题可能与此有关。