如何将文件从HDFS复制到远程HDFS



我想将文件从我的Hadoop集群复制到远程集群。

我在远程群集中有hadoop_conf文件,可以通过设置HADOOP_CONF_DIR.

我知道远程名称节点的 IP 和端口。

我想通过命名空间复制文件,如下所示。

例如(Hadoop FS -CP hdfs://MyNamespace/path/file hdfs://RemoteNamespace/path/file

但是,如果我不配置hadoop_conf_dir,则我不知道远程命名空间,如果我在hadoop_conf_dir中设置了远程集群的信息,则无法访问集群的命名空间。

请让我知道该怎么做。

在集群之间复制的典型方法是使用 distcp

$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

看DistCp 版本 2 指南了解更多信息。

最新更新