小贝子编程

在Hadoop-MapReduce集群中增加此数据存储库的大小

对于使用Hadoop-MapReduce集群并每天接收大约30000TB数据的视频存储库，集群中如何满足磁盘存储需求？在这种情况下，任何帮助将不胜感激。问候贝鲁兹

增加集群中的数据节点存储并使复制因子 = 0 希望这足以满足您的答案

让我们做一些基本的计算

每天输入大小 = 30000 TB。重复因子 = 3。对于运行 MR 或 Spark(最坏情况(，存储因子 =1

因此，您每天需要 = 30000 *4 TB 的 HDFS 存储空间。

假设您每 30 天删除一次遗留数据，这使得 HDFS 空间需求为 30000 *4 *30 TB

要记住的关键指针。

相关内容