Flink SQL重复数据删除状态管理



我有一个使用表API去重复数据的用例(同时将数据从一个源流式传输到另一个接收器)。对于这样的用例,这个文档看起来非常清晰。但我不明白的是,在这种情况下,国家管理是如何运作的?国家什么时候会进行内部清洗?例如,当我在几周后收到重复的order_id时,它是否在内部删除,因为它是重复的,但在14天后处理?或者换句话说,SQL清除其状态的频率是多少?在我试图理解的同一页中没有提到这一点。也许我需要联系一些其他的概念?

除非您明确定义,否则状态不会在内部清除。关于状态管理的文档对此有更详细的解释,您可以在https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/concepts/overview/#state-usage

找到该文档。

最新更新