在hadoop HDFS中存储大文件

我需要在HDFS上存储一个大约10TB的大文件。我需要了解的是HDFS将如何存储此文件。假设集群的复制因子是3，我有一个10个节点的集群，每个节点上的磁盘空间超过10tb，即集群总容量超过100TB。

现在HDFS随机选择三个节点并将文件存储在这三个节点上。这和听起来一样简单。请确认?

或者HDFS将文件分割成10个，每个1TB，然后将每个分割存储在随机选择的3个节点上。所以分裂是可能的，如果是，它是一个配置方面，通过它是启用的。如果HDFS必须分割二进制或文本文件——它是如何分割的?简单地按字节计算。

是的，它分割文件(默认为128mb块)。每个块将存储在3个随机节点上。因此，您将有30TB的数据均匀分布在您的10个节点上。

相关内容