小贝子编程

如何在 Spark 流式处理中使用基于数据集的转换

本文关键字：数据集转换 Spark 处理 apache-spark apache-spark-sql spark-streaming
更新时间 : 2023-09-08
英文 : How to use Dataset-based transformation in Spark Streaming?

我有一个批处理模式（使用数据集）的Spark作业，它执行一些转换并将数据摄取到NOSQL。

我从其他来源获取数据，这些数据的结构与批处理模式下接收的数据相似，尽管频率非常高（分钟）。我可以使用用于批处理模式的代码进行流式处理吗？

我试图避免 2 个代码副本来处理类似的结构。

您可以使用

transform流运算符（如scaladoc中所述）：

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]

返回一个新的 DStream，其中每个 RDD 都是通过在"this"DStream 的每个 RDD 上应用一个函数来生成的。

最新更新

Jenkins zip调试和发布apk，并希望做archiveArtifacts
如何在Oracle XE 21c上下载HR模式?
r语言 - 是否有可能强制一个特定的变量进入bestglm?
从html [web app using flask]中的python文件获取信息
磁盘[admin]未配置，请在' config/ filessystems .php '中添加磁盘配置
如何从子组件中设置父组件中的变量
我如何排序我的捆绑器依赖之间是一个开发依赖或不是?
Weka RF 不会给出任何混淆矩阵或预期结果
我想简化这个javascript代码.有许多子元素
如何将列表转换为元组，我尝试了基于谷歌搜索，它从未工作过
键和值的哈希集
目标链接并不总是出现在iframe中
0x800700b7向IIS部署网站错误
条形码扫描器何时创建com端口，何时不创建?
在SQL中创建一个没有join的视图
在React中使用jQuery仅用于更改样式(颜色，边框等)是可以的吗?
UseState没有更新组件属性
c语言 - 我有一个将字符串作为参数的函数.v手动输入字符串有效，但使用 scanf 不起作用
无法解析google工作表中的范围
如何在顺风中使用柔韧
无法将数据插入数据库
r语言 - 闪亮的应用程序输出显示在控制台，而不是在主面板
ModuleNotFoundError for 'sklearn' as subdependency of numpy
语句中未声明的标识符导致的负索引'for'
MariaDB vs MySQL:列定义中的默认表达式不工作
在SQL表中有一个默认时间
vb.net stream_writer encoding
我们可以在powershell中调用Bat命令而不调用/调用Bat文件吗?
如何修复类型错误：'int'对象不可迭代
Discord Bot JS:编辑来自先前斜杠命令交互的回复

如何在 Spark 流式处理中使用基于数据集的转换

相关内容

最新更新

热门标签：