如何处理火花结构化流中删除(或更新的)行



如果我想在"Coca-Cola"上积极工作有多少人,我会使用以下查询:

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下正常工作。

但是,假设personcompany字段会随着时间的推移而变化,或者假设人们完全从Dataset中删除了CC_5,那么我如何才能与结构化流一起工作,因此count保持正确?

>

afaik结构化流假定数据源仅附加:这是否意味着我需要跟踪删除和更新作为单独的数据源,并自己合并?

一般而言,结构化流的模型是您从不断增长的附加表中读取。您是正确的,这意味着要回答您的问题,您将必须建模将值更改为删除(可能在numEmployees之类的字段中具有负值),然后进行插入。

相关内容

  • 没有找到相关文章