如何在 Spark 流式处理中使用基于数据集的转换



我有一个批处理模式(使用数据集)的Spark作业,它执行一些转换并将数据摄取到NOSQL。

我从其他来源获取数据,这些数据的结构与批处理模式下接收的数据相似,尽管频率非常高(分钟)。我可以使用用于批处理模式的代码进行流式处理吗?

我试图避免 2 个代码副本来处理类似的结构。

您可以使用

transform流运算符(如scaladoc中所述):

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]

返回一个新的 DStream,其中每个 RDD 都是通过在"this"DStream 的每个 RDD 上应用一个函数来生成的。

相关内容

  • 没有找到相关文章

最新更新