如何在MapReduce中编写自定义SD输出文件格式




请向我建议如何将输出文件格式(part-r-00000)(默认文件格式)更新为另一种文件格式,如csv或txt文件格式在mapreduce程序中。

你可以

这样做:

hdfs dfs -cat /path/in/hdfs/part* |hdfs dfs -put - /chosen/path/in/hdfs/name_of_file.txt

hdfs dfs -cat /path/in/hdfs/part* |hdfs dfs -put - chosen/path/in/hdfs/name_of_file.csv

另一种方法是-getmerge复制到本地,但您需要-copyFromLocalhdfs但它的目的是更改文件格式:

hdfs dfs -getmerge /path/in/hdfs/part* /path/in/local/file_name.format
hdfs dfs -copyFromLocal /path/in/local/file_name.format /path/in/hdfs/archive/

一种方法是您可以使用Hadoop的put命令将part-r-00000文件复制到xyz.txt文件。像HDFS DFS - 将部分R-00000放到XYZ.txt

最新更新