我在本地机器上有一个ORC文件,我需要它的任何合理格式(例如CSV、JSON、YAML…)。
如何将ORC转换为CSV?
- 下载
- 提取文件,转到
java
文件夹并执行maven:mvn install
- 使用ORC工具
这就是我使用它们的方式-您可能需要调整路径:
java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json
输出是JSON Lines,它很容易转换为CSV。首先,我需要从输出中删除最后两行。然后:
import pandas as pd
df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')
另一个选项可以是bigdata文件查看器,它是一个跨平台的应用程序。您可以打开ORC文件并以CSV格式保存该文件。
具体用法如下:
- 从发布页面下载可运行的jar,或者按照Build部分从源代码进行构建
- 通过java-jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependences.jar调用它
- 通过"打开二进制格式文件";文件"->quot;打开";。目前,它可以打开带有镶木地板后缀、orc后缀和avro后缀的文件。如果没有指定后缀,该工具将尝试将其提取为Parquet文件
- 将每页的最大行数设置为";查看"->输入最大行数->quot;Go">
- 通过";查看"->quot;添加/删除属性">
- 通过"转换为CSV文件";文件"->quot;另存为"->quot;CSV">
- 通过展开"检查模式信息";模式信息";面板