我理解写成ORC格式+快速压缩(pig脚本),
使用OrcStorage("-c SNAPPY")
我需要你的帮助,我需要包括什么SET命令或必要的库才能将结果数据集存储为ORC格式?
请帮忙。
Subra
检查您使用的清管器版本。可从pig14获得ORC存储作为内置功能。查看示例:https://pig.apache.org/docs/r0.14.0/func.html#OrcStorage
更新
这只猪工作得很好:
data = LOAD 'SO/date.txt' USING PigStorage(' ') AS (ts:chararray);
STORE data INTO 'orc/snappy' using OrcStorage('-c SNAPPY');
data_orc = LOAD 'orc/snappy' using OrcStorage('-c SNAPPY');
DUMP data_orc;
你甚至不需要注册kryo jar,因为它不是直接从pig中使用的,所以它会被优化,但你通过反射来使用它,所以你必须将kryo jar添加到类路径中,就像这样:
pig -latest -useHCatalog -cp ./kryo-2.24.0.jar orc.pig