Hortonworks Oozie Spark Action



>有没有人设法在HDP中通过Oozie成功运行Spark操作?

我正在使用带有Oozie 4.2.0的HDP 2.3.2。火花动作设置为在纱线簇模式下运行。Spark 作业是虚拟作业,没有输入文件。

我首先在这里遇到错误,并通过从hdfs oozie spark lib文件夹中删除以下内容(在我的情况下:/user/oozie/share/lib/lib_20151116201309/spark/)设法绕过它:

  • 速子-0.5.0.jar
  • tachyon-client-0.5.0.jar(都是因为这个错误)
  • 火花-core_2.10-1.1.0.jar
  • 火花graphx_2.10-1.1.0.jar
  • 火花-streaming_2.10-1.1.0.jar

并在工作流 lib 文件夹中添加了以下内容:

  • datanucleus-api-jdo-3.2.6.jar
  • 数据核心-3.2.10.jar
  • datanucleus-rdbms-3.2.9.jar
  • 火花-1.4.1.2.3.2.0-2950-纱线洗牌.jar
  • 火花组装-1.4.1.2.3.2.0-2950-Hadoop2.7.1.2.3.2.0-2950.jar
  • 火花示例-1.4.1.2.3.2.0-2950-Hadoop2.7.1.2.3.2.0-2950.jar

现在我遇到以下错误:

失败的 Oozie Launcher,主类 [org.apache.oozie.action.hadoop.SparkMain],main() 抛出异常,从 hdp4/10.10.1.84 到 0.0.0.0:8032 调用失败,连接异常:java.net.ConnectException:连接被拒绝;有关更多详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused java.net.ConnectException: 从 hdp4/10.10.1.84 到 0.0.0.0:8032 的调用失败,连接异常: java.net.ConnectException: 连接被拒绝;有关更多详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused

我提到:

  • 在 job.properties 文件和 yarn 配置文件中,作业跟踪器/资源管理器端口都设置为 8032
  • 应用程序运行了~20分钟(我多次运行并观察了这个时间)

以下是我为使SparkAction在HDP 2.3.4上运行而执行的步骤。

  1. 备份Oozie sharelib spark文件夹并删除除oozie-sharelib-<spark-version>.jar以外的所有jar。就我而言,我只是将 spark 文件夹重命名为 spark-backup 并创建了一个新的 spark 文件夹,然后复制了我提到的 jar。
  2. 将所有 jar 从 $SPARK_HOME/lib 复制到 Oozie sharelib spark 文件夹。
  3. 重新启动奥兹
  4. 将yarn.resourcemanager.address更改为通过Ambari <myhost>:8032
  5. 已重启纱线

我以前或多或少遇到过同样的问题,所以我在 Hortonworks 社区上发布了这个问题,这帮助我最终让它工作。

相关内容

  • 没有找到相关文章

最新更新