小贝子编程

如何处理火花结构化流中删除(或更新的)行

如果我想在"Coca-Cola"上积极工作有多少人，我会使用以下查询：

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下正常工作。

但是，假设person的company字段会随着时间的推移而变化，或者假设人们完全从Dataset中删除了CC_5，那么我如何才能与结构化流一起工作，因此count保持正确？

afaik结构化流假定数据源仅附加：这是否意味着我需要跟踪删除和更新作为单独的数据源，并自己合并？

一般而言，结构化流的模型是您从不断增长的附加表中读取。您是正确的，这意味着要回答您的问题，您将必须建模将值更改为删除（可能在numEmployees之类的字段中具有负值），然后进行插入。

相关内容