在Hadoop-MapReduce集群中增加此数据存储库的大小



对于使用Hadoop-MapReduce集群并每天接收大约30000TB数据的视频存储库,集群中如何满足磁盘存储需求? 在这种情况下,任何帮助将不胜感激。 问候 贝鲁兹

增加集群中的数据节点存储并使复制因子 = 0 希望这足以满足您的答案

让我们做一些基本的计算

每天输入大小 = 30000 TB。 重复因子 = 3。 对于运行 MR 或 Spark(最坏情况(,存储因子 =1

因此,您每天需要 = 30000 *4 TB 的 HDFS 存储空间。

假设您每 30 天删除一次遗留数据,这使得 HDFS 空间需求为 30000 *4 *30 TB

要记住的关键指针。

  1. 尝试至少有30%的HDFS可供MapReduce和Spark作业运行

  2. 根据您的视频格式,使用压缩库压缩数据并将其保存在 HDFS 上。HDFS上的未压缩数据没有多大用处,并且在MR,Spark运行时导致更高的I/O。

最新更新