如何将本地ORC文件转换为CSV

  • 本文关键字:文件 转换 CSV ORC csv orc
  • 更新时间 :
  • 英文 :


我在本地机器上有一个ORC文件,我需要它的任何合理格式(例如CSV、JSON、YAML…)。

如何将ORC转换为CSV?

  1. 下载
  2. 提取文件,转到java文件夹并执行maven:mvn install
  3. 使用ORC工具

这就是我使用它们的方式-您可能需要调整路径:

java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json

输出是JSON Lines,它很容易转换为CSV。首先,我需要从输出中删除最后两行。然后:

import pandas as pd
df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')

另一个选项可以是bigdata文件查看器,它是一个跨平台的应用程序。您可以打开ORC文件并以CSV格式保存该文件。

具体用法如下:

  • 从发布页面下载可运行的jar,或者按照Build部分从源代码进行构建
  • 通过java-jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependences.jar调用它
  • 通过"打开二进制格式文件";文件"->quot;打开";。目前,它可以打开带有镶木地板后缀、orc后缀和avro后缀的文件。如果没有指定后缀,该工具将尝试将其提取为Parquet文件
  • 将每页的最大行数设置为";查看"->输入最大行数->quot;Go">
  • 通过";查看"->quot;添加/删除属性">
  • 通过"转换为CSV文件";文件"->quot;另存为"->quot;CSV">
  • 通过展开"检查模式信息";模式信息";面板

相关内容

  • 没有找到相关文章

最新更新