我想创建带有服务器任务管理器的Apache Flink独立集群。我想使用HDFS和Hive。因此,我必须添加一些Hadoop依赖项。
阅读文档后,建议的方法是设置HADOOP_CLASSPATHenv变量。但是我必须如何添加hadoop文件呢?我应该将源文件下载到taskmanager的/opt/hadoop之类的目录中,并将变量设置为该路径吗?
我只知道下载带有依赖项的Uber Jar并将其放在/lib文件夹下的旧方法,但不推荐使用。
通常情况下,您会进行标准Hadoop安装,因为您(对于HDFS(需要在每台服务器上运行Node Manager(具有适当的配置(,再加上在master
服务器上运行的NameNode。
所以你可以在master
服务器上做这样的事情,在那里你可以提交你的Flink工作流:
export HADOOP_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=/etc/hadoop/conf