Databricks IO Cache with sc.parallelize()?



我通过https://docs.databricks.com/user-guide/databricks-io-cache.html,但是没有关于如何使用的示例的单行代码除了设置配置设置以启用DBIO缓存外,DBIO缓存(而不是标准的Spark RDD缓存(。

我假设,如果我启用设置spark.conf.set("spark.databricks.io.cache.enabled", "true"),那么在我的Spark作业中,无论我创建的RDD基本上都将被视为DBIO缓存吗?如果我想区分并在我的代码中都有两个?

DBIO缓存仅此时可与Parquet数据集一起使用。因此,只要您从Parquet加载数据框,就可以使用缓存。您可以通过查看Spark UI中的Storage选项卡来确认,该标签将显示您到目前为止所掌握的数量。另外,为了使其更容易使用i3实例类型,以便默认启用DBIO缓存。

最新更新