Hadoop之上的流框架,支持ORC,镶木地板文件格式



Hadoop流是否支持新的列式存储格式,如ORC和parquet,或者Hadoop之上是否有框架允许你读取这些格式?

您可以使用HCatalog读取ORC文件。 https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

它为您提供了读取ORC,文本,序列,RC文件的抽象。我不确定那里是否支持镶木地板。尽管如此,如果这听起来不合理,您可以使用Hive代码库中的ORC记录读取器来读取ORC文件(ORCInputFormat,ORCOutputFormat)。

相当古老的消息,但我前段时间为此苦苦挣扎。我没有找到任何解决方案,因此,我制作了一组输入/输出格式,将 avro 和 parquet 文件转换为纯文本和 json。可以在 http://github.com/whale2/iow-hadoop-streaming 找到它。没有ORC支持,但支持Avro和Parquet。希望这有帮助。

相关内容

  • 没有找到相关文章

最新更新