如何在不使用distcp
命令的情况下将hive数据从一个Hadoop集群移动到另一个Hadoop集群。因为我们不能用这个。我们还有其他像Sqoop或Flume这样的选择吗?
distcp是将大量数据从一个hadoop集群移动到另一个hadoop集群的有效方法。
Sqoop和Flume不能用于将数据从一个hadoop集群传输到另一个hadoop集群。Sqoop主要用于在hadoop和关系数据库之间移动数据,而Flume用于将流数据摄取到hadoop。
你的另一个选择是使用:
- 像Kafka一样的高吞吐量msg队列,但这会比使用distcp更复杂。
- 使用传统的
hadoop fs
shell命令,如cp
或get
,后跟put
当你在谈论Hive数据时,你还应该考虑在集群之间保持Hive元数据(metastore)同步