如何将数据从 kafka 发送到 hive

我想从Kafka(做一些MapReduce工作(将数据发送到hive.
这适合使用Spark流吗？
或者一些更好的方法？

您可以使用Kafka Connect和HDFS连接器来执行此操作。这会将数据从 Kafka 流式传输到 HDFS，并自动定义顶部的 Hive 表。它可以独立使用，也可以作为Confluent平台的一部分使用。

免责声明：我在Confluent工作。

从流式处理的角度来看，提前构建的 Hive 表，转储到 Spark Streaming 或 Flink 中，在大多数情况下都可以正常工作，但如果 Spark 作业中 Hive 输出的架构发生变化怎么办？这就是你可能想要的Streamsets，Kafka Connect HDFS Connector或Apache Gobblin之类的东西。

另外，请记住，HDFS不喜欢处理小文件，因此在HDFS之前设置大批量将有利于以后的Hive消费

。

Hive 文档中已经有一个 Hive-Kafka ETL 实践。

用户可以创建一个外部表，该表是针对一个 Kafka 主题的视图

欲了解更多信息： https://github.com/apache/hive/tree/master/kafka-handler

相关内容

最新更新

热门标签：