我尝试了一些选项,但是我只看到配置设置将小文件合并到大文件中,例如下面,但不反之亦然。我想创建大小150kb的文件。
set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;
您可以尝试设置ORC块大小hive.exec.orc.default.block.size
。还要跳过合并小文件,您将需要禁用标志。 set hive.merge.tezfiles=false;
您可以参考Hortonworks社区线程链接以获取有关文件的生成方式的更多信息。
尝试以下设置,这些应该有助于保留小文件:
set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;
set mapreduce.input.fileinputformat.split.minsize=100;
set mapreduce.input.fileinputformat.split.maxsize=128000;
set hive.exec.orc.default.block.size=128000;