Dstream和Seq [RDD]有什么区别



文档状态的Dstream的定义,

离散的流或Dstream是火花流提供的基本抽象。它代表了连续的数据流,即从源接收到的输入数据流,或者是通过转换输入流生成的处理的数据流。在内部,Dstream由连续的RDD代表,这是Spark的不变,分布式数据集的抽象。

问题是,如果它表示为一系列RDD,我们是否可以进行RDD流并期望它与Dstream相似?

如果有人可以通过代码样本帮助我理解这一点,那就太好了。

问题是,如果它表示为一系列RDD,我们是否可以进行RDD流并期望它与Dstream相似?

你是对的。DStream在逻辑上是一系列RDDs。

火花流只是隐藏创建Seq[RDD]的过程,因此不是您的工作,而是框架。

此外,Spark流提供了一个更好的开发人员API,因此您可以将Seq[RDD]视为DStream,但是您可以简单地简单地将dstream.map(t => your code goes here)视为CC_7,除了rddt的类型外,它没有什么不同。使用DStream时,您已经在下面的一个级别。

最新更新