Flink SQL 对实时数据和历史数据

我正在开发一个应用程序，我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC，其中 Flink 在 Kafka 等流源上运行 SQL，SQL 查询只返回新事件/更改。但是，我想对整个数据运行SQL，某些数据可能会随着时间的推移而变化。基本上，我的要求是连续查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点？

Flink SQL 还没有提供合适的文件系统连接器，所以这至少在目前是这样。另一方面，卡夫卡得到了很好的支持。

如果您想要一个随着历史记录的增长而扩展的有状态后端，最好查看可用的连接器。

最有可能的候选者似乎是Hbase。

到目前为止是一般答案。

最好从这里开始，但对于您希望使用 S3，很高兴知道 Cloudera 数据平台将很快包含 S3 支持的 Hbase 解决方案。

免责声明：我是Cloudera的员工，Cloudera是Kafka，Hbase和Flink背后的驱动力

相关内容

最新更新

热门标签：