小贝子编程

PySpark:我是否需要重新缓存数据帧

本文关键字：缓存数据帧新缓存是否 PySpark apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-09
英文 : PySpark: do I need to re-cache a DataFrame?

假设我有一个数据帧：

rdd = sc.textFile(file)
df = sqlContext.createDataFrame(rdd)
df.cache()

我添加了一列

df = df.withColumn('c1', lit(0))

我想反复使用df。那么我是否需要重新cache()数据帧，还是 Spark 会自动为我执行此操作？

每次操作/更改数据帧时，都必须再次重新缓存数据帧。但是，不必重新计算整个数据帧。

df = df.withColumn('c1', lit(0))

在上面的语句中，将创建一个新的数据帧并将其重新分配给变量 df 。但这次只计算新列，其余列从缓存中检索。

最新更新

无法导入节点模块
VueJs 3 - Vuex: Uncaught TypeError: store不是函数
Textarea视觉元素?
日志记录不输出调试和信息日志
试图在R上安装地球引擎;Python =3.1不可用
如何在我的代码中添加一些项目，例如"Favorite"？
获取python中从1开始的值的特定索引
BeautifulSoup美化编码非英语(西里尔字母)字符奇怪
为什么' rev().rev() '工作，但' rev().skip(1).rev() '不工作? &
我可以在共享媒体目录DCIM或Android的下载目录下编程创建空子目录吗?
错误:太多的重新渲染.React限制了渲染的次数，以防止无限循环.带有嵌套函数的自定义钩子
(Python 3.8)如何将变量转换为没有分隔符的列表?
解决Docker层缓存在Azure Pipeline中不工作的问题
Jetpack compose:可以设置下拉菜单的高度，以显示下一个项目
如何平嵌套的可观察对象，从RXJS
为什么我的解决方案不正确的旅游切片练习?
我如何使用sbt命令，如清洁和编译在我的自定义sbtplugin
Angular语言 - 根据给定的数据自动填充嵌套表单
node-gyp configure将错误:在VisualStudioFinder中生成EPERM
Spring WebClient检索封装在results属性下的json对象
尝试设置BlazorMonaco编辑器时"ReferenceError: monaco is not defined"
Pandas以正确的顺序创建一个列的DataFrame
在clojure中，vector前面的quote是什么意思?
在模板前使用隐式转换
r语言 - 为什么我的生存曲线没有显示为分层分类?
触发通过外部记录创建API提交脚本之前/之后
为什么esp8266客户端没有连接到服务器?
react-native-map-clustering的性能问题
如何在Flutter中设置图像选择器中的图像的最大大小
dotenv:命令在nestjs项目中找不到

PySpark:我是否需要重新缓存数据帧

相关内容

最新更新

热门标签：