小贝子编程

如何使用Flink数据集API统计源中读取的总记录

本文关键字：读取记录统计何使用 Flink 数据集 API apache-flink
更新时间 : 2023-09-19
英文 : How to count total records read in source using Flink dataset API

我们目前使用Flink DataSet API从FileSystem读取文件并应用一些批处理转换。我们还想获得作业完成后处理的总记录。管道类似dataset.map().filter()

count((函数似乎是一个非并行运算符，它需要从所有数据集中进行额外的计算。

有没有任何方法可以在map操作符中计算处理过的记录，并提供类似流之类的辅助输出，这样我们就可以聚合它们来获得总数？或者有其他更好的方法吗？

非常感谢！

您可能想要使用counters。这些计数器允许您为每个任务输出小的统计信息，这些统计信息在作业完成时自动累积。

最新更新

将十进制转换为十六进制，并确保它们是数字
为用户在登录页面后添加路由
动态变量导致错误，因为它没有正确分配
有可能从手机中获得指纹或人脸验证吗?
File IO From a JAR File
如何获得上下文在一个简单的类没有BuildContext在扑动
无法向 Tkinter 窗口添加背景
如何将RGB图像转换为灰度，但保持一种颜色?——Java
我应该在Docker内部还是在虚拟环境中安装气流?
属性错误： 'DataFrame'对象没有属性'assign'
如何在每次在DirectoryInfo.GetFiles()中加载新文件时执行操作?
HTML中的Javascript在Angular中不起作用
如何在firebase中调度大约每整小时运行一次的函数?
Uncaught TypeError:不能访问数组上字符串类型的偏移量
Switch(Select)在TRANSFORM和Select之间工作吗?
MySQL SELECT查询工作，但具有相同WHERE子句的UPDATE查询不工作
drupal 10 localhost站点:如何在安装和注销后访问登录页面
Flutter原生启动画面图像未出现- Flutter (Dart)
用另一个远程分支覆盖一个远程分支
邮递员说"The route api...could not be found."(拉拉维尔)
Firebase Messaging项目Google Analytics升级失败
在初始页面加载时未应用FacetWP查询顺序数组设置
GitHub邀请过期吗?
使用AWS秘密管理器端点的安全组
如何做基于名称和值的点击事件？
在容器和主机上创建具有相同Linux用户id的用户
Firebase身份验证在部署后不工作.扑动Web应用程序显示空白的白色屏幕
AWS Client VPN Access Public URL/IP
python dict get方法即使key在dict中也运行第二个参数
如何在Python中使用每周时间序列

如何使用Flink数据集API统计源中读取的总记录

相关内容

最新更新

热门标签：