在Spark上运行Golang apache Beam管道



我创建了一个简单的golang Apache Beam管道,它与DirectRunner一起工作得很好。我尝试使用以下命令将其部署在Spark集群上:./bin/spark-submit --master=spark://vm:7077 main.go --runner=SparkRunner --job_endpoint=localhost:8099 --artifact_endpoint=localhost:8098 --environment_type=LOOPBACK --output=/tmp/output

在提交申请之前,我使用以下命令运行job_endpoint:

./gradlew :runners:spark:job-server:runShadow -PsparkMasterUrl=spark://localhost:7077

Spark上的作业失败,出现以下错误:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Exception in thread "main" org.apache.spark.SparkException: Failed to get main class in JAR with error 'null'. Please specify one with --class.

似乎我需要指定类参数,但我不明白错误是什么意思?我能得到帮助吗?

Spark -submit是一个Spark实用程序,可以接受Java JAR或Python脚本。它不知道如何运行Go程序。

我更新了Beam Go快速入门指南,其中包含Spark跑步者的说明。让我知道这是否适合你。

最新更新