我需要在HDFS上存储一个大约10TB的大文件。我需要了解的是HDFS将如何存储此文件。假设集群的复制因子是3,我有一个10个节点的集群,每个节点上的磁盘空间超过10tb,即集群总容量超过100TB。
现在HDFS随机选择三个节点并将文件存储在这三个节点上。这和听起来一样简单。请确认?
或者HDFS将文件分割成10个,每个1TB,然后将每个分割存储在随机选择的3个节点上。所以分裂是可能的,如果是,它是一个配置方面,通过它是启用的。如果HDFS必须分割二进制或文本文件——它是如何分割的?简单地按字节计算。
是的,它分割文件(默认为128mb块)。每个块将存储在3个随机节点上。因此,您将有30TB的数据均匀分布在您的10个节点上。