Mapreduce configuration : mapreduce.job.split.metainfo.maxsi



我想了解属性mapreduce.job.split.metainfo.maxsize及其效果。描述说:

拆分元信息文件的最大允许大小。作业跟踪器不会尝试读取大于配置值的拆分元信息文件。如果设置为 -1,则没有限制。

"拆分元信息文件"包含什么?我已经读到它将存储有关输入拆分的元信息。输入拆分是对块的逻辑包装以创建完整的记录,对吧?拆分元信息是否包含可能在多个块中可用的实际记录的块地址?

提交 hadoop 作业时,整组输入文件被切成"拆分",并将它们与其元数据一起存储到每个节点。从那时起,拆分的元数据计数是有限制的 - 属性"mapreduce.jobtracker.split.metainfo.maxsize"决定了这个限制,其默认值为1000万。您可以通过增加此值来绕过此限制,或者通过将其值设置为 -1 来解锁限制

相关内容

  • 没有找到相关文章

最新更新