我有两个脚本,它们解析原始日志中的数据,并将其写入HIVE中的ORC表中。一个脚本创建更多的列,另一个创建更少的列。两个表都按date
字段进行分区。
因此,我有不同大小文件的ORC表。列数较多的表由许多小文件组成(每个分区内的每个文件约4MB),列数较少的表由几个大文件组成(每分区内的每文件约250MB)。
我想这是因为ORC中的stripe.size设置。但我不知道如何检查现有表格的条纹大小。像"show create"one_answers"describe"这样的命令不会显示任何自定义设置,这意味着表的条带大小应该等于256 MB。
我正在寻找任何建议,以检查现有ORC表的stripe.size。或者解释ORC表中的文件大小如何取决于该表中的数据。
附言:当我稍后阅读带有Map Reduce的表时,这一点很重要,因为对于带有大文件的表,有少量的reducer。
尝试配置单元ORC文件转储实用程序:ORC文件卸载实用程序。