假设我有一个包含记录的数据文件,其中每个记录都有一个时间戳,如下所示:
foo,bar,blaz,timestamp1
foo,flibble,baz,timestamp2
bleh,foo,gnarly,timestamp3
...
我想使用Spark来处理这个问题,这需要使用window()函数。有没有任何方法可以读取这些记录,并将每个记录都放入DStream中,以便window()函数将使用的时间戳由我的代码显式提供(在这种情况下,基于解析输入记录中的时间戳字段)?
否,默认的Spark处理基于系统时间。如果您想使用事件时间构建窗口。我建议您使用"updateStateByKey"函数来处理更新函数内部的逻辑。