如何将本地ORC文件转换为CSV

我在本地机器上有一个ORC文件，我需要它的任何合理格式(例如CSV、JSON、YAML…)。

如何将ORC转换为CSV？

这就是我使用它们的方式-您可能需要调整路径：

java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json

输出是JSON Lines，它很容易转换为CSV。首先，我需要从输出中删除最后两行。然后：

import pandas as pd
df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')

另一个选项可以是bigdata文件查看器，它是一个跨平台的应用程序。您可以打开ORC文件并以CSV格式保存该文件。

具体用法如下：

从发布页面下载可运行的jar，或者按照Build部分从源代码进行构建
通过java-jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependences.jar调用它
通过"打开二进制格式文件"；文件"->quot；打开"；。目前，它可以打开带有镶木地板后缀、orc后缀和avro后缀的文件。如果没有指定后缀，该工具将尝试将其提取为Parquet文件
将每页的最大行数设置为"；查看"->输入最大行数->quot；Go">
通过"；查看"->quot；添加/删除属性">
通过"转换为CSV文件"；文件"->quot；另存为"->quot；CSV">
通过展开"检查模式信息"；模式信息"；面板

相关内容