目前我正在执行以下命令
sqoop 合并 --new-data/home/part1/part-m-00000 --onto/home/part2/part-m-00000 --target-dir/home/merge --jar-file/home/hadoop/myjar.jar --class-name myjar --merge-key id
除了合并在多个部分文件中生成输出外,一切都很好,因为这是 hadoop 中的 mapReduce 任务,它使用多个化简器。
零件文件是镶木地板文件,我想创建单个文件,因为同一文件将输入到我的下一个进程,下一个进程是在同一个提取的文件上运行 Apache spark 作业。
如何强制将 sqoop 合并的输出转换为单个文件?对此有什么建议吗?
谢谢
-杰克逊
当我需要这样做时,我所做的是:
- 创建新的目标文件
- 运行 Sqoop 命令后,转到所有零件文件所在的目录 创建
- 执行猫 *>> target_file
不确定这是否适合您,因为我在您的示例中没有足够的细节可以使用。
这里的假设是你正在从shell脚本执行sqoop命令。