为了加快蜂巢过程,如何使用tez调整映射器和化简器数量



我尝试了使用tez处理大数据(约150GB(的过程(句子的单词标记(,但问题是花费了太多时间(1周或更长时间(,然后

我试图指定映射器的数量。 虽然我设置了mapred.map.tasks =2000, 但我无法阻止映射器设置为大约 150, 所以我不能做我想做的事情。

我在 oozie 工作流文件中指定地图值并使用 tez。

如何指定映射器的数量?

最后我想加快这个过程,不使用 tez 是可以的。

另外,我想逐个化简器计算标记的句子,这也需要很多时间。

而且,我还想知道如何调整内存大小以使用每个映射器和化简器进程。

为了在 Hive 查询中手动设置映射器的数量,当 TEZ 是执行引擎时,可以使用配置tez.grouping.split-count...

set tez.grouping.split-count=4将创建 4 个映射器

https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job


但是,总体而言,您应该在开始调整 Tez 设置之前优化存储格式和 Hive 分区。不要尝试在 Hive 中STORED AS TEXT处理数据。首先将其转换为ORC或镶木地板。

如果 Tez 不适合您,您可以随时尝试 Spark。加上标记句子可能是你可以在某处找到的Spark MLlib worlflow

相关内容

  • 没有找到相关文章