Flink SQL 对实时数据和历史数据



我正在开发一个应用程序,我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC,其中 Flink 在 Kafka 等流源上运行 SQL,SQL 查询只返回新事件/更改。但是,我想对整个数据运行SQL,某些数据可能会随着时间的推移而变化。基本上,我的要求是连续查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点?

Flink SQL 还没有提供合适的文件系统连接器,所以这至少在目前是这样。另一方面,卡夫卡得到了很好的支持。

如果您想要一个随着历史记录的增长而扩展的有状态后端,最好查看可用的连接器。

最有可能的候选者似乎是Hbase。


到目前为止是一般答案。

最好从这里开始,但对于您希望使用 S3,很高兴知道 Cloudera 数据平台将很快包含 S3 支持的 Hbase 解决方案。

免责声明:我是Cloudera的员工,Cloudera是Kafka,Hbase和Flink背后的驱动力

相关内容

  • 没有找到相关文章

最新更新