小贝子编程

将Hadoop依赖项添加到独立的Flink集群中

我想创建带有服务器任务管理器的Apache Flink独立集群。我想使用HDFS和Hive。因此，我必须添加一些Hadoop依赖项。

阅读文档后，建议的方法是设置HADOOP_CLASSPATHenv变量。但是我必须如何添加hadoop文件呢？我应该将源文件下载到taskmanager的/opt/hadoop之类的目录中，并将变量设置为该路径吗？

我只知道下载带有依赖项的Uber Jar并将其放在/lib文件夹下的旧方法，但不推荐使用。

通常情况下，您会进行标准Hadoop安装，因为您(对于HDFS(需要在每台服务器上运行Node Manager(具有适当的配置(，再加上在master服务器上运行的NameNode。

所以你可以在master服务器上做这样的事情，在那里你可以提交你的Flink工作流：

export HADOOP_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=/etc/hadoop/conf

相关内容