使用python笔记本在数据链球中创建闪闪发光的水云

我试图使用数据映射在Spark中启动闪闪发光的水云。我已经连接了H2O库（3.16.0.2），Pysparkling（Pysparkling 0.4.6）和闪闪发光的水罐（闪闪发光的水罐_2.11-2.1.1.1.10-all.jar）（Spark 2.1，自动更新Scala 1.1.1）。

我以下面的方式成功导入所需的库：

from pysparkling import *
import h2o

但是，当我尝试使用以下命令初始化闪闪发光的水云时：

hc = H2OContext.getOrCreate(spark)

或

H2OContext.getOrCreate(sc)

我有相同的错误：

NameError: name 'H2OContext' is not defined

NameError                                 Traceback (most recent call last)
<command-4043510449425708> in <module>()
----> 1 H2OContext.getOrCreate(sc)
NameError: name 'H2OContext' is not defined

对于值得的，我可以使用此Scala文档初始化闪闪发光的水云：

%scala
import org.apache.spark.h2o._
val h2oConf = new H2OConf(sc).set("spark.ui.enabled", "false")
val h2oContext = H2OContext.getOrCreate(sc, h2oConf)
import org.apache.spark.h2o._
h2oConf: org.apache.spark.h2o.H2OConf =
Sparkling Water configuration:
  backend cluster mode : internal
  workers              : None
  cloudName            : sparkling-water-root_app-20171222131625-0000
  flatfile             : true
  clientBasePort       : 54321
  nodeBasePort         : 54321
  cloudTimeout         : 60000
  h2oNodeLog           : INFO
  h2oClientLog         : WARN
  nthreads             : -1
  drddMulFactor        : 10
h2oContext: org.apache.spark.h2o.H2OContext =
Sparkling Water Context:
 * H2O name: sparkling-water-root_app-20171222131625-0000
 * cluster size: 1
 * list of used nodes:
  (executorId, host, port)
  ------------------------
  (x,xx.xxx.xxx.x,54321)
  ------------------------
  Open H2O Flow in browser: http://xx.xxx.xxx.xxx:54321 (CMD + click in Mac OSX)

但是，此管道可能并不总是使用数据括号，因此它需要全部在Pyspark中，并且Databricks没有相应的Pyspark示例。

预先感谢。

对于PySparkling，您需要首先为h2o_pysparkling_2.1创建PYPI库，因为您使用的是Spark 2.1群集。您附加的库，pysparkling是不同的。另外，您不需要附上所有其他库，因为h2o_pysparkling_2.1软件包已经导入其他必要的库。

一旦您可以运行：

from pysparkling import *
h2oConf = H2OConf(spark)
h2oConf.set("spark.ui.enabled", False)
h2oContext = H2OContext.getOrCreate(spark, h2oConf)

相关内容

最新更新

热门标签：