databricks笔记本中有多个单元格



我是databricks的新手。问题是,当我们可以在一个单元格中编写一整套指令/程序时,为什么笔记本中有多个单元格?

问候,

使用多个单元格的优点是,您可以将大代码分成小部分(在每个单元格中(,并可以单独执行该单元格,而无需执行完整的代码,因为大分析、大数据集、探索性数据分析、转换等可能需要很长时间。

换句话说,我们可以说,由于Databricks是一种大数据分析工具,它涉及大数据集(数百万行(的获取、数据集的清理、转换,然后实现数据分析和机器学习算法。如果在单个单元格中运行,所有这些任务都需要大量的计算资源。因此,您可以在Databricks Notebook中的每个单元格中划分上述任务,并分别运行它们。

例如:如果你正在从Azure data Lake存储帐户(ADLS(获取数据,你可以在一个单元格中创建一个到所需存储资源和路径的装载点,并单独运行这个单元格。现在你的ADLS容器已经安装好了,你可以使用另一个单元格来准备数据。通过这种方式,您不需要再次装载资源,因为它已经在上一个单元格中完成了。

最新更新