我有一个批处理模式(使用数据集)的Spark作业,它执行一些转换并将数据摄取到NOSQL。
我从其他来源获取数据,这些数据的结构与批处理模式下接收的数据相似,尽管频率非常高(分钟)。我可以使用用于批处理模式的代码进行流式处理吗?
我试图避免 2 个代码副本来处理类似的结构。
您可以使用
transform
流运算符(如scaladoc中所述):
transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]
返回一个新的 DStream,其中每个 RDD 都是通过在"this"DStream 的每个 RDD 上应用一个函数来生成的。