假设有 5 个文件,每个文件的大小为 150 MB。现在,当我将这些文件放入hdfs(其中块大小为64 mb)时,每个文件将有多少块数和总块数。还有所有文件的拆分次数。以及有多少个映射器
每个文件将有3 blocks
(64mb,64mb,32mb)。所以完全没有。区块数量 5*3 = 15
因此,拆分的数量将是15。所以映射器的数量(如果使用FileInputFormat
)= 15。
解释:
HDFS不需要整个块来存储大小
· 客户端会将日期写入其中
· 编写器关闭后,认为文件已关闭 用于写作。即,创建大小为10MB的文件
· 然后该块中有 53MB 可用空间。这将是 释放并添加到可用空间。
· 因此,此文件的块仅占用10MB(块调整大小) 将会发生)
您的文件存储在 hdfs 中。
1file =100mb
block size=64mb
所以1 file split in 2 block
.
你有 5个文件
5*2=10blocks.
每次拆分 1 个映射器,因此
10blocks=10mapper
请确认,在您的问题中标题文件大小为150MB,但有问题的文件大小为100MB。它将与上述相同的划分。