如何将数据从 kafka 发送到 hive



我想从Kafka(做一些MapReduce工作(将数据发送到hive.
这适合使用Spark流吗?
或者一些更好的方法?

您可以使用Kafka Connect和HDFS连接器来执行此操作。这会将数据从 Kafka 流式传输到 HDFS,并自动定义顶部的 Hive 表。它可以独立使用,也可以作为Confluent平台的一部分使用。

免责声明:我在Confluent工作。

从流式处理的角度来看,提前构建的 Hive 表,转储到 Spark Streaming 或 Flink 中,在大多数情况下都可以正常工作,但如果 Spark 作业中 Hive 输出的架构发生变化怎么办?这就是你可能想要的Streamsets,Kafka Connect HDFS Connector或Apache Gobblin之类的东西。

另外,请记住,HDFS不喜欢处理小文件,因此在HDFS之前设置大批量将有利于以后的Hive消费

Hive 文档中已经有一个 Hive-Kafka ETL 实践。

用户可以创建一个外部表,该表是针对一个 Kafka 主题的视图

欲了解更多信息: https://github.com/apache/hive/tree/master/kafka-handler

相关内容

  • 没有找到相关文章

最新更新