我是Kafka的新手,我们有以下要求:
1(每天进行从kafka到HDFS的数据同步,在KAFKA簇中存储的JSON有效载荷中的特定键分区。
2(json有效载荷必须分为两个不同的文件
想知道使用HDFS Kafka连接器是否可以实现这一目标?看到了一些文档,我认为我可以让#1轻松工作,但无法理解我的第二个要求是否有任何可能的东西。关于如何实现这一目标的任何建议将受到高度赞赏。预先感谢。
查看消息变换,看看它们是否适合您的用例https://kafka.apache.org/documentation/#connect_transforms。基本上,我要设想2个不同的HDFS连接器实例从同一主题读取,并使用Extractfield之类的人从每个实例的有效负载中拉出所需的内容,然后写入两个不同的HDFS位置。