参数
代码:
from pyspark.sql import SparkSession
from pysparkling import *
hc = H2OContext.getOrCreate()
我使用的是spark独立集群3.2.1,并尝试在python文件中启动H2OContext。在尝试使用spark-submit运行脚本时,我得到了以下错误:
hc = H2OContext.getOrCreate() NameError: name 'H2OContext' is not defined
Spark提交命令:
spark-submit--masterspark://local:7077--程序包ai.h2o:喷洒-水包装_2.12:3.36.1.31-3.2喷洒-h20/h2o.py
--packages ai.h2o:sparkling-water-package_2.12:3.36.1.3-1-3.2
从Maven下载一个jar工件。这个工件只能用于Scala/Java。我看到Sparkling Water文档中有一个错误。
如果你想使用Python API,你需要:
- 从此位置下载软件zip存档
- 解压缩存档并转到解压缩的文件夹
- 使用命令
spark-submit --master spark://local:7077 --py-files py/h2o_pysparkling_3.2-3.36.1.3-1-3.2.zip spark_h20/h2o.py
将脚本提交到集群