将文件上传到 HDFS 是否会自动以分布式方式存储文件



我刚开始学习Hadoop,我对如何以分布式方式存储数据有点困惑。我有MPI背景。对于 MPI,我们通常有一个主处理器,将数据发送到各种其他处理器。这是由程序员显式完成的。

使用Hadoop

,您就拥有了Hadoop分布式文件系统(HDFS)。因此,当您将本地服务器中的某个文件放入HDFS时,HDFS是否会自动以分布式方式存储此文件,而无需程序员执行任何操作?HDFS这个名字似乎暗示了这一点,但我只是想验证一下。

是的,确实如此。

文件上传后,NameNode 根据复制因子(通常为 3)协调复制到存储该文件的数据节点。

此外,NameNode 有一个作业,用于查找复制不足的文件或块,并将复制它们以维护复制因子。 有关更多信息,请参阅 HDFS 架构 - 数据复制。