与作为作业运行时相比,手动触发Databricks笔记本的运行速度更快



我不知道这个问题之前是否已经讨论过,但现在开始了——我有一个笔记本,可以使用笔记本中的"运行"按钮手动运行,也可以作为作业运行。

直接运行笔记本电脑的运行时间大约为2小时。但当我把它作为一个作业来执行时,运行时间是巨大的(大约8个小时(。耗时最长的一段代码是调用applyInLindas函数,该函数又调用pandas_udf。pandas_udf训练auto_arima模型。

有人能帮我弄清楚可能发生了什么吗?我一无所知。

谢谢!

当将笔记本作为作业运行时,必须定义一个"作业集群";(与"交互式集群"形成对比的是,在那里你可以连接到笔记本上并点击运行(。当";作业集群";必须旋转,但这通常只需要不到10分钟。除此之外,请确保您的作业集群的规范与您的交互式集群相同(即相同的工人类型、工人大小、自动缩放等(。

最新更新