将作业发送到 Spark 群集



我已经在独立模式下使用Cassandra作为数据集群设置了一个火花集群。另一方面,我正在使用IntelliJ IDEA编写驱动程序代码,以发送到火花集群由工作线程执行。

我想知道是否可以将代码从 intellij(在我的本地机器中(执行到远程集群中,或者我必须创建一个.jar文件并使用 sopark-submit 将其部署到工作人员?

我只是在寻找确认,因为我在进行所有设置时遇到问题,需要减少可能性。

提前谢谢。

您必须在Spark-cluster上执行代码并将此群集的配置设置为您的SparkContext这样您就可以在 Intellij 中编写代码并将代码部署到 Spark 将执行它的远程群集,我建议您阅读有关在群集上提交应用程序的规范。 接下来可以是启动应用程序的配置:

./bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--master spark://${yourip}:7077 
--executor-memory 5G 
/path/to/examples.jar 
1000

如果您不想直接重新连接到集群,您可以制作jar文件并将其部署到集群上,而无需通过spark-submit连接 - 本视频教程展示了如何制作它。 呵呵

我猜您正在尝试使用 IntelliJ 调试驱动程序。

您可以在客户端模式下"提交"应用程序,然后使用 IntelliJ IDE 附加到驱动程序。