Hadoop流是否支持新的列式存储格式,如ORC和parquet,或者Hadoop之上是否有框架允许你读取这些格式?
您可以使用HCatalog读取ORC文件。 https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
它为您提供了读取ORC,文本,序列,RC文件的抽象。我不确定那里是否支持镶木地板。尽管如此,如果这听起来不合理,您可以使用Hive代码库中的ORC记录读取器来读取ORC文件(ORCInputFormat,ORCOutputFormat)。
相当古老的消息,但我前段时间为此苦苦挣扎。我没有找到任何解决方案,因此,我制作了一组输入/输出格式,将 avro 和 parquet 文件转换为纯文本和 json。可以在 http://github.com/whale2/iow-hadoop-streaming 找到它。没有ORC支持,但支持Avro和Parquet。希望这有帮助。