Databricks/Spark错误-依赖项更新

我对databricks很陌生。我一直收到一个错误(几乎是随机的——这似乎不是我的代码的问题(，只能通过重新启动集群来解决。错误为：

org.apache.spark.SparkException：由于阶段失败，作业中止

org.apache.spark.SparkException：获取失败spark://10.100.52.23:37487/files/packages.tar在相关性更新期间

以前有人见过这个吗？你知道为什么会发生这种事吗？

我的代码是用R编写的，我在集群上安装了包xgboost。我认为这是唯一一个没有包含在默认值中的库。

向微软提出了问题，他们的工程团队已经按照如下所示进行了重新部署。

函数spark_apply((将用户代码(闭包(捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时，一些执行者可能会在无法访问捆绑文件时被分配任务。

这需要在上游sparklyr中解决，以便在此处使用捆绑文件的唯一名称。我们向Sparklyr社区提交了一个问题，可以在这里跟踪。https://github.com/sparklyr/sparklyr/issues/2244.

因此，这似乎是一个已知的问题，目前我们的团队将修复这个错误，但这需要一些时间。

相关内容