我们目前使用Flink DataSet API从FileSystem读取文件并应用一些批处理转换。我们还想获得作业完成后处理的总记录。管道类似dataset.map().filter()
count((函数似乎是一个非并行运算符,它需要从所有数据集中进行额外的计算。
有没有任何方法可以在map操作符中计算处理过的记录,并提供类似流之类的辅助输出,这样我们就可以聚合它们来获得总数?或者有其他更好的方法吗?
非常感谢!
您可能想要使用counters
。这些计数器允许您为每个任务输出小的统计信息,这些统计信息在作业完成时自动累积。