文档状态的Dstream的定义,
离散的流或Dstream是火花流提供的基本抽象。它代表了连续的数据流,即从源接收到的输入数据流,或者是通过转换输入流生成的处理的数据流。在内部,Dstream由连续的RDD代表,这是Spark的不变,分布式数据集的抽象。
问题是,如果它表示为一系列RDD,我们是否可以进行RDD流并期望它与Dstream相似?
如果有人可以通过代码样本帮助我理解这一点,那就太好了。
问题是,如果它表示为一系列RDD,我们是否可以进行RDD流并期望它与Dstream相似?
你是对的。DStream
在逻辑上是一系列RDD
s。
火花流只是隐藏创建Seq[RDD]
的过程,因此不是您的工作,而是框架。
此外,Spark流提供了一个更好的开发人员API,因此您可以将Seq[RDD]
视为DStream
,但是您可以简单地简单地将dstream.map(t => your code goes here)
视为CC_7,除了rdd
和t
的类型外,它没有什么不同。使用DStream
时,您已经在下面的一个级别。