我正在开发一个应用程序,我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC,其中 Flink 在 Kafka 等流源上运行 SQL,SQL 查询只返回新事件/更改。但是,我想对整个数据运行SQL,某些数据可能会随着时间的推移而变化。基本上,我的要求是连续查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点?
Flink SQL 还没有提供合适的文件系统连接器,所以这至少在目前是这样。另一方面,卡夫卡得到了很好的支持。
如果您想要一个随着历史记录的增长而扩展的有状态后端,最好查看可用的连接器。
最有可能的候选者似乎是Hbase。
到目前为止是一般答案。
最好从这里开始,但对于您希望使用 S3,很高兴知道 Cloudera 数据平台将很快包含 S3 支持的 Hbase 解决方案。
免责声明:我是Cloudera的员工,Cloudera是Kafka,Hbase和Flink背后的驱动力