Sqoop 合并工具可在单个文件中生成输出



目前我正在执行以下命令

sqoop 合并 --new-data/home/part1/part-m-00000 --onto/home/part2/part-m-00000 --target-dir/home/merge --jar-file/home/hadoop/myjar.jar --class-name myjar --merge-key id

除了合并在多个部分文件中生成输出外,一切都很好,因为这是 hadoop 中的 mapReduce 任务,它使用多个化简器。

零件文件是镶木地板文件,我想创建单个文件,因为同一文件将输入到我的下一个进程,下一个进程是在同一个提取的文件上运行 Apache spark 作业。

如何强制将 sqoop 合并的输出转换为单个文件?对此有什么建议吗?

谢谢

-杰克逊

当我需要这样做时,我所做的是:

  1. 创建新的目标文件
  2. 运行 Sqoop 命令后,转到所有零件文件所在的目录 创建
  3. 执行猫 *>> target_file

不确定这是否适合您,因为我在您的示例中没有足够的细节可以使用。

这里的假设是你正在从shell脚本执行sqoop命令。

最新更新