块大小效应哈杜普

  • 本文关键字:哈杜普 hadoop
  • 更新时间 :
  • 英文 :


我正在处理hadoop apache 2.7.1

并且我正在添加大小不超过 100 Kb

的文件

因此,如果我将块大小配置为 1 MB 或默认值,即128兆字节

这不会影响我的文件,因为它们只会保存在一个块上

当我们下载文件时,将检索一个块

但是块存储大小会有什么区别我的意思是,当文件小于 1 MB 时,以 1 MB 块大小存储文件与以 128 MB 块大小存储文件是否不同

我的意思是当 1 MB 的文件存储在大小为 128 m 的块中时,它会保留整个块并且该块不会用于其他文件,或者空白空间将用于其他文件,指针引用块中的文件开始位置

我发现上传和下载时间没有区别我还需要考虑其他几点

我将为此引用由我编写的(现已停产的(SO文档,因为为什么不呢。

例如,假设您有一个大小为 1024 MB 的文件,如果您的块大小为 128 MB,您将获得 8 个块,每个块 128MB。这意味着您的 namenode 将需要存储 8 x 3 = 24 个文件的元数据(3 是复制因子(。

考虑块大小为 4 KB 的相同方案。这将导致 1GB/4KB = 250000 个块,这将要求 namenode 保存 750000 个块的元数据,仅用于 1GB 文件。由于所有这些元数据相关信息都存储在内存中,因此最好使用较大的块大小来节省 NameNode 上的额外负载。

最新更新