Databricks/Spark错误-依赖项更新



我对databricks很陌生。我一直收到一个错误(几乎是随机的——这似乎不是我的代码的问题(,只能通过重新启动集群来解决。错误为:

org.apache.spark.SparkException:由于阶段失败,作业中止

org.apache.spark.SparkException:获取失败spark://10.100.52.23:37487/files/packages.tar在相关性更新期间

以前有人见过这个吗?你知道为什么会发生这种事吗?

我的代码是用R编写的,我在集群上安装了包xgboost。我认为这是唯一一个没有包含在默认值中的库。

向微软提出了问题,他们的工程团队已经按照如下所示进行了重新部署。

函数spark_apply((将用户代码(闭包(捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时,一些执行者可能会在无法访问捆绑文件时被分配任务。

这需要在上游sparklyr中解决,以便在此处使用捆绑文件的唯一名称。我们向Sparklyr社区提交了一个问题,可以在这里跟踪。https://github.com/sparklyr/sparklyr/issues/2244.

因此,这似乎是一个已知的问题,目前我们的团队将修复这个错误,但这需要一些时间。

最新更新