Databricks IO Cache with sc.parallelize()?

我通过https://docs.databricks.com/user-guide/databricks-io-cache.html，但是没有关于如何使用的示例的单行代码除了设置配置设置以启用DBIO缓存外，DBIO缓存(而不是标准的Spark RDD缓存(。

。

我假设，如果我启用设置spark.conf.set("spark.databricks.io.cache.enabled", "true")，那么在我的Spark作业中，无论我创建的RDD基本上都将被视为DBIO缓存吗？如果我想区分并在我的代码中都有两个？

DBIO缓存仅此时可与Parquet数据集一起使用。因此，只要您从Parquet加载数据框，就可以使用缓存。您可以通过查看Spark UI中的Storage选项卡来确认，该标签将显示您到目前为止所掌握的数量。另外，为了使其更容易使用i3实例类型，以便默认启用DBIO缓存。

相关内容