蜂箱检查现有ORC存储的条带大小

  • 本文关键字:存储 ORC hadoop hive orc
  • 更新时间 :
  • 英文 :


我有两个脚本,它们解析原始日志中的数据,并将其写入HIVE中的ORC表中。一个脚本创建更多的列,另一个创建更少的列。两个表都按date字段进行分区。

因此,我有不同大小文件的ORC表。列数较多的表由许多小文件组成(每个分区内的每个文件约4MB),列数较少的表由几个大文件组成(每分区内的每文件约250MB)。

我想这是因为ORC中的stripe.size设置。但我不知道如何检查现有表格的条纹大小。像"show create"one_answers"describe"这样的命令不会显示任何自定义设置,这意味着表的条带大小应该等于256 MB。

我正在寻找任何建议,以检查现有ORC表的stripe.size。或者解释ORC表中的文件大小如何取决于该表中的数据。

附言:当我稍后阅读带有Map Reduce的表时,这一点很重要,因为对于带有大文件的表,有少量的reducer。

尝试配置单元ORC文件转储实用程序:ORC文件卸载实用程序。

相关内容

  • 没有找到相关文章

最新更新