我知道这一定是一个愚蠢的问题,但经过几个小时的谷歌搜索,我找不到答案。
在纯文本格式(如csv)中很容易理解分隔符是如何工作的。而在ORC中,由于它是二进制存储在HDFS中,字段的分隔符是什么?我被告知ORC中没有分隔符,但我非常怀疑这种说法。
即使存储为行组,对于每个行组的一列,也可以有多个数据字段,每个字段如何与下一个字段区分?每一行如何与下一行分开?是否有分隔符来实现这一点?
谢谢你的评论!
无分隔符。它使用Stride/Stripes,
文件主体被划分为条带。每个条纹都是自己的包含的,并且可以仅使用它自己的字节与文件的页脚和后记。每个条纹只包含整行行永远不会跨越条纹边界。条纹有三条节:条带内的一组索引,即数据本身和一个条纹页脚。索引和数据节是否按列划分,以便只保留所需列的数据需要阅读
参考:兽人