我创建了一个简单的golang Apache Beam管道,它与DirectRunner
一起工作得很好。我尝试使用以下命令将其部署在Spark集群上:./bin/spark-submit --master=spark://vm:7077 main.go --runner=SparkRunner --job_endpoint=localhost:8099 --artifact_endpoint=localhost:8098 --environment_type=LOOPBACK --output=/tmp/output
在提交申请之前,我使用以下命令运行job_endpoint
:
./gradlew :runners:spark:job-server:runShadow -PsparkMasterUrl=spark://localhost:7077
Spark上的作业失败,出现以下错误:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Exception in thread "main" org.apache.spark.SparkException: Failed to get main class in JAR with error 'null'. Please specify one with --class.
似乎我需要指定类参数,但我不明白错误是什么意思?我能得到帮助吗?
Spark -submit是一个Spark实用程序,可以接受Java JAR或Python脚本。它不知道如何运行Go程序。
我更新了Beam Go快速入门指南,其中包含Spark跑步者的说明。让我知道这是否适合你。