嗨,当我使用 hadoop jar ..args..
提交 jar 进行地图缩减作业时,我想知道如何部署非 jar 文件。
对于 hadoop 流媒体,有--file
选项可以发送文件,对于 Spark,我们有--files
但我在文档中找不到这样的选项。
提交 hadoop map-reduce 作业时,是否可以将非 jar 文件与我的 jar 一起发送?
应用程序可以使用选项 -files 指定以逗号分隔的路径列表,这些路径将存在于任务的当前工作目录中
-libjars 选项允许应用程序将 jar 添加到 映射和化简的类路径。选项 -存档允许 它们传递逗号分隔的存档列表作为参数。这些 存档未存档,并创建包含存档名称的链接 在任务的当前工作目录中。有关 命令行选项可在命令指南中找到。
使用 -libjars、-files 和 -archives 运行字数统计示例:hadoop jar hadoop-examples.jar wordcount -files cachefile.txt -libjars mylib.jar -archives myarchive.zip input output here, myarchive.zip 将被放置并解压缩到名称的目录中 "我的档案.zip"。
用户可以为文件和存档指定不同的符号名称 使用 # 传递 -files 和 -archives 选项。
例如,hadoop jar hadoop-examples.jar wordcount -files dir1/dict.txt#dict1,dir2/dict.txt#dict2 -archives mytar.tgz#tgzdir 输入输出 在这里,文件 dir1/dict.txt 和 dir2/dict.txt可以是 任务使用符号名称字典 1 和字典 2 访问 分别。存档 mytar.tgz 将被放置并取消存档到 名为"TGZDIR"的目录。