按键将flink数据集拆分为多个,并写入单独的文件



我想根据tuple2的Integer值将我的DataSet<Tuple2<Integer, Point>>拆分为n个数据集。

目前我基本上过滤数据集n次,并将每个结果保存到一个单独的文件。我更喜欢一种更好更多变的方式。此外,这似乎没有利用flink技能。

如果你需要更多的信息请告诉我。

分割数据集的常用方法是在输入数据集上使用过滤器,如下所示:

Flink邮件列表中的数据集拆分/解复用

据我所知,没有一个运算符,可以按照你的意愿进行分割。正如答案中所说,"开销应该是合理的。数据保持在同一节点上而且过滤器可以很轻。"

最新更新