Sqoop 合并工具可在单个文件中生成输出

目前我正在执行以下命令

sqoop 合并 --new-data/home/part1/part-m-00000 --onto/home/part2/part-m-00000 --target-dir/home/merge --jar-file/home/hadoop/myjar.jar --class-name myjar --merge-key id

除了合并在多个部分文件中生成输出外，一切都很好，因为这是 hadoop 中的 mapReduce 任务，它使用多个化简器。

零件文件是镶木地板文件，我想创建单个文件，因为同一文件将输入到我的下一个进程，下一个进程是在同一个提取的文件上运行 Apache spark 作业。

如何强制将 sqoop 合并的输出转换为单个文件？对此有什么建议吗？

谢谢

-杰克逊

当我需要这样做时，我所做的是：

创建新的目标文件
运行 Sqoop 命令后，转到所有零件文件所在的目录创建
执行猫 *>> target_file

不确定这是否适合您，因为我在您的示例中没有足够的细节可以使用。

这里的假设是你正在从shell脚本执行sqoop命令。

相关内容

最新更新

热门标签：