如何使用Flink数据集API统计源中读取的总记录



我们目前使用Flink DataSet API从FileSystem读取文件并应用一些批处理转换。我们还想获得作业完成后处理的总记录。管道类似dataset.map().filter()

count((函数似乎是一个非并行运算符,它需要从所有数据集中进行额外的计算。

有没有任何方法可以在map操作符中计算处理过的记录,并提供类似流之类的辅助输出,这样我们就可以聚合它们来获得总数?或者有其他更好的方法吗?

非常感谢!

您可能想要使用counters。这些计数器允许您为每个任务输出小的统计信息,这些统计信息在作业完成时自动累积。

最新更新