如何在使用TEZ插入数据到Hive Orc表的同时创建小文件



我尝试了一些选项,但是我只看到配置设置将小文件合并到大文件中,例如下面,但不反之亦然。我想创建大小150kb的文件。

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;

您可以尝试设置ORC块大小hive.exec.orc.default.block.size。还要跳过合并小文件,您将需要禁用标志。 set hive.merge.tezfiles=false;您可以参考Hortonworks社区线程链接以获取有关文件的生成方式的更多信息。

尝试以下设置,这些应该有助于保留小文件:

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;
set mapreduce.input.fileinputformat.split.minsize=100;
set mapreduce.input.fileinputformat.split.maxsize=128000;
set hive.exec.orc.default.block.size=128000;

相关内容

  • 没有找到相关文章

最新更新