ORC格式-依赖PIG的库



我理解写成ORC格式+快速压缩(pig脚本),

使用OrcStorage("-c SNAPPY")

我需要你的帮助,我需要包括什么SET命令或必要的库才能将结果数据集存储为ORC格式?

请帮忙。

Subra

检查您使用的清管器版本。可从pig14获得ORC存储作为内置功能。查看示例:https://pig.apache.org/docs/r0.14.0/func.html#OrcStorage

更新

这只猪工作得很好:

data = LOAD 'SO/date.txt' USING PigStorage(' ') AS (ts:chararray);
STORE data INTO 'orc/snappy' using OrcStorage('-c SNAPPY');
data_orc = LOAD 'orc/snappy' using OrcStorage('-c SNAPPY');
DUMP data_orc;

你甚至不需要注册kryo jar,因为它不是直接从pig中使用的,所以它会被优化,但你通过反射来使用它,所以你必须将kryo jar添加到类路径中,就像这样:

pig -latest -useHCatalog  -cp ./kryo-2.24.0.jar orc.pig 

相关内容

  • 没有找到相关文章

最新更新