将HDFS上许多部分中的现有ORC存储转换为一个CSV文件的最简单方法是什么?我可以使用 hive 和/或 spark,但我想保持较小的内存要求,所以我不想spark.read
和合并。
我不确定,但您可以尝试从 hive ORC 导出到 CSV 格式的外部表,设置 hive.merge.mapredfiles=true(https://community.hortonworks.com/questions/92415/how-to-merge-reduce-task-output-to-produce-final-o.html(