我一直在使用kafka connect、Spark流媒体、Nifi和kafka进行流媒体数据处理。
我知道,与其他技术不同,kafkaconnect不是一个单独的应用程序,它是kafka的一个工具。
在分布式模式下,所有技术都通过底层任务或线程来实现并行性。是什么让卡夫卡在与卡夫卡打交道时变得高效?为什么它被称为轻量级?
它高效且轻量级,因为它使用内置的Kafka协议,不需要YARN等外部系统。虽然可以说在Mesos/Kubernetes/Docker中部署Connect更好/更容易,但它不需要
connect API也由核心Kafka开发人员维护,而不是那些只想简单集成到另一个工具中的人。例如,上次我检查时,NiFi无法访问Kafka消息的时间戳。与使用Confluent Certified Connectors 相比,在其他工具中,处理Avro Schema Registry似乎是一个深思熟虑的问题