火花流微批处理


如果Spark Streaming在10秒的批处理间隔内获得50行消息,并且在40.5行消息之后,10秒

结束,其余部分落入另一个10秒间隔,前40.5行文本是RDD首先处理,在我的用例中前40行有意义,但接下来的.5行没有意义, 第二个RDD第一个.5行的情况也是如此,我的问题是否有效?请告知如何处理此问题?

谢谢法案。

它不可能发生。元素已收到并且是当前窗口的一部分,或者尚未收到,并将包含在下一个窗口中。基于文件的源需要创建原子文件,因此根本不可能只加载文件的一部分。

最新更新