r语言 - 在 CDH-5.10.2 上 RSparkling 中的连续"Got IO error when sending batch UDP bytes: java.net.ConnectExc



我正在尝试在离线CDH-5.10.2群集上执行此rsparkling示例。我的环境是:

  • Spark 1.6.0;
  • Sparplyr 0.6.2;
  • H2O 3.10.5.2;
  • rsparkling 0.2.1。

我使用此PR的自定义起泡水罐基本上是1.6.12:

options(rsparkling.sparklingwater.location = "/opt/h2o/sparkling-water-1.6.13-SNAPSHOT/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-SNAPSHOT-all.jar")

成功连接后:

config <- spark_config()
config$spark.dynamicAllocation.enabled <- "false"
config$spark.driver.memory <- "6g"
config$spark.executor.memory <- "6g"
config$spark.executor.heartbeatInterval <- "20s"
sc <- spark_connect(master = "yarn-client", config = config)

我创建H2O上下文:

h2o_context(sc)

H2O上下文创建需要几分钟(这是第一个奇怪的事情)。

创建后,该应用程序又在几分钟内变得无反应(甚至Spark Master UI都无法到达)。目前没有打印H2O日志。

之后,出现了H2O日志,但它们主要包含这些消息:

Got IO error when sending batch UDP bytes: java.net.ConnectException: Connection refused

和罕见的这些之间:

WARN: Unblock allocations; cache below desired, but also OOM: OOM, (K/V:Zero   + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB), desiredKV=121.1 MB OOM!

然后,与H2O无关的以下代码快速执行:

flights_tbl <- copy_to(sc, nycflights13::flights, "flights")
airports_tbl <- copy_to(sc, nycflights13::airports, "airports")
airlines_tbl <- copy_to(sc, nycflights13::airlines, "airlines")
model_tbl <- flights_tbl %>%
  filter(!is.na(arr_delay) & !is.na(dep_delay) & !is.na(distance)) %>%
  filter(dep_delay > 15 & dep_delay < 240) %>%
  filter(arr_delay > -60 & arr_delay < 360) %>%
  left_join(airlines_tbl, by = c("carrier" = "carrier")) %>%
  mutate(gain = dep_delay - arr_delay) %>%
  select(origin, dest, carrier, airline = name, distance, dep_delay, arr_delay, gain)

但是当H2O必须再次发挥作用时:

df_hex <- as_h2o_frame(sc,model_tbl,name="model_hex",FALSE)

该应用程序再次悬挂(目前已经悬挂了二十分钟左右)。

我试图多次重新运行此代码,并成功一次,但通常只是悬挂。如何对此进行故障排除?

我检查了CPU,RAM和磁盘使用情况,所有这些似乎都可以。也没有明显的网络问题。

更新1 。也许ConnectException只是K/V:Zero + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB的结果。因此,我将尝试找出如何增加H2O的最大内存(以及为什么首先低于1 GB)。

根本原因是sparklyr的内存分配不足,默认的1 GB内存不足以适用于在同一JVM中执行的H2O客户端。这些代码保存了一天:

config$`sparklyr.shell.driver-memory` <- "6g"
config$`sparklyr.shell.executor-memory` <- "6g"

最新更新