小贝子编程

Hadoop之上的流框架，支持ORC，镶木地板文件格式

本文关键字：ORC 木地板文件格式支持 Hadoop 框架 hadoop mapreduce hive hadoop-streaming
更新时间 : 2023-08-21
英文 : Streaming frameworks on top of Hadoop that support ORC, parquet file formats

Hadoop流是否支持新的列式存储格式，如ORC和parquet，或者Hadoop之上是否有框架允许你读取这些格式？

您可以使用HCatalog读取ORC文件。 https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

它为您提供了读取ORC，文本，序列，RC文件的抽象。我不确定那里是否支持镶木地板。尽管如此，如果这听起来不合理，您可以使用Hive代码库中的ORC记录读取器来读取ORC文件（ORCInputFormat，ORCOutputFormat）。

相当古老的消息，但我前段时间为此苦苦挣扎。我没有找到任何解决方案，因此，我制作了一组输入/输出格式，将 avro 和 parquet 文件转换为纯文本和 json。可以在 http://github.com/whale2/iow-hadoop-streaming 找到它。没有ORC支持，但支持Avro和Parquet。希望这有帮助。

Hadoop之上的流框架，支持ORC，镶木地板文件格式

相关内容

最新更新

热门标签：