我已经在独立模式下使用Cassandra作为数据集群设置了一个火花集群。另一方面,我正在使用IntelliJ IDEA编写驱动程序代码,以发送到火花集群由工作线程执行。
我想知道是否可以将代码从 intellij(在我的本地机器中(执行到远程集群中,或者我必须创建一个.jar文件并使用 sopark-submit 将其部署到工作人员?
我只是在寻找确认,因为我在进行所有设置时遇到问题,需要减少可能性。
提前谢谢。
您必须在Spark-cluster
上执行代码并将此群集的配置设置为您的SparkContext
这样您就可以在 Intellij 中编写代码并将代码部署到 Spark 将执行它的远程群集,我建议您阅读有关在群集上提交应用程序的规范。 接下来可以是启动应用程序的配置:
./bin/spark-submit
--class org.apache.spark.examples.SparkPi
--master spark://${yourip}:7077
--executor-memory 5G
/path/to/examples.jar
1000
如果您不想直接重新连接到集群,您可以制作jar
文件并将其部署到集群上,而无需通过spark-submit
连接 - 本视频教程展示了如何制作它。 呵呵
我猜您正在尝试使用 IntelliJ 调试驱动程序。
您可以在客户端模式下"提交"应用程序,然后使用 IntelliJ IDE 附加到驱动程序。