Kafka在没有汇流的情况下下沉到数据湖存储



我正在努力寻找开源Kafka直接写入Azure Data Lake存储Gen2的选项。我似乎没有什么选择,主要围绕着Confluent盘旋,如下所示:

  1. 将Confluent Cloud与Apache Kafka一起使用-需要订阅Confluent并支付费用(Confluent云和ADLS

  2. 使用带有Confluent Hub的Azure VM并安装Confluent Platform

目前我不愿意支付Confluent许可费,也不想用Confluent包(越来越多的包装和箍(进行测试

是否可以直接使用开源Kafka将数据写入ADLS Gen2?如果是的话,我们如何才能做到这一点——分享任何有用的信息?

首先,Kafka Connect是Apache2授权产品,是一个由插件组成的开放平台;不需要使用Confluent Platform/Cloud。您可以将Azure连接器下载为ZIP文件,并像其他一样安装它

但是,Confluent(或任何开发人员(有权为其软件和任何支持提供付费许可协议,否则可能会有一段有限的试用期,您可以使用该插件一段时间。

话虽如此,你不";需要";汇流平台;"箍";如果你使用它,因为它只向Apache Kafka+Zookeeper添加了额外的,那么它就不是它自己的东西(你可以将现有的Kafka安装与其他Confluent产品一起使用(

关于其他开源的东西。StackOverflow不是推荐软件或寻找工具/库的地方。不过,你可以使用Spark/Flink/Nifi,我相信你会重新实现与Kafka Connect类似的管道,或者你可以基于开源kafka-connect-storage-cloud项目编写自己的Kafka连接器,该项目用作S3、GCS和Azure、AFAIK的基础。

有一个Apache Camel连接器,它有一个用于发送和接收数据的Azure Datalake连接器。(汇点和来源(看看这个:https://camel.apache.org/camel-kafka-connector/latest/connectors/camel-azure-storage-datalake-kafka-sink-connector.html这是一个免费的解决方案,不需要使用Confluent许可证或技术。

最新更新