如果我想在"Coca-Cola"
上积极工作有多少人,我会使用以下查询:
people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...
这在批处理模式下正常工作。
但是,假设person
的company
字段会随着时间的推移而变化,或者假设人们完全从Dataset
中删除了CC_5,那么我如何才能与结构化流一起工作,因此count
保持正确?
afaik结构化流假定数据源仅附加:这是否意味着我需要跟踪删除和更新作为单独的数据源,并自己合并?
一般而言,结构化流的模型是您从不断增长的附加表中读取。您是正确的,这意味着要回答您的问题,您将必须建模将值更改为删除(可能在numEmployees
之类的字段中具有负值),然后进行插入。