我对databricks
很陌生。我一直收到一个错误(几乎是随机的——这似乎不是我的代码的问题(,只能通过重新启动集群来解决。错误为:
org.apache.spark.SparkException:由于阶段失败,作业中止
org.apache.spark.SparkException:获取失败spark://10.100.52.23:37487/files/packages.tar在相关性更新期间
以前有人见过这个吗?你知道为什么会发生这种事吗?
我的代码是用R编写的,我在集群上安装了包xgboost
。我认为这是唯一一个没有包含在默认值中的库。
向微软提出了问题,他们的工程团队已经按照如下所示进行了重新部署。
函数spark_apply((将用户代码(闭包(捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时,一些执行者可能会在无法访问捆绑文件时被分配任务。
这需要在上游sparklyr中解决,以便在此处使用捆绑文件的唯一名称。我们向Sparklyr社区提交了一个问题,可以在这里跟踪。https://github.com/sparklyr/sparklyr/issues/2244.
因此,这似乎是一个已知的问题,目前我们的团队将修复这个错误,但这需要一些时间。