在Map Reduce程序中,单个映射器可以发出的键值对的数量是否有上限?
我对Hadoop 1和Hadoop 2都感兴趣。X和2。我用谷歌搜索了一下,没有找到任何答案,也没有提到它。
谢谢
单个映射器发出的键值对的数量没有限制。
映射器不断生成输出,这些输出被写入缓冲区。这个缓冲区的大小由配置mapreduce.task.io.sort决定。mb[默认值:256MB(CDH), 100MB(源代码)].
当缓冲区占用达到mapreduce.map.sort.spill时。% [Def: 0.8]的容量,缓冲区内容溢出(非阻塞进程)到本地磁盘-溢出文件。