MAPREDUCE基础知识



我的文本文件为300MB,块大小为128MB。因此,将创建总计3个块128 128 44 MB。纠正me-对于地图减少,默认输入拆分与可以配置的128MB块大小相同。现在,录制读取器将读取每个分型,创建键值对为键是偏移,值是单行。(TextInputFormat)问题是,在我的块的最后一行中,块的末端,但线路确实在另一个块中结束,该行的其余部分将从不同的节点中取出,或者其余的行将在另一个节点中运行。另外,第二个节点将如何理解其第一行已被用于处理,并且不需要再次处理。

例如这是stackoverflow。此(块1/输入拆分的结尾)是地图简要示例。(线结束)

3映射器将在此情况下生成。Hadoop在每个块的末尾使用指示下一个块的位置的指针,因此Mapper 1将处理完整的行,这可能是Block 2的一部分,Mapper 2将通过离开该行开始处理。

最新更新