小贝子编程

使用toPandas()方法创建的数据框分布在整个spark集群中

本文关键字：spark 分布 toPandas 方法创建数据使用 pandas apache-spark pyspark apache-spark-sql
更新时间 : 2023-08-23
英文 : Is dataframe created using toPandas() method is distributed across the spark cluster?

我正在通过

阅读CSV文件

data=sc.textFile("filename") 
Df = Sparksql.create dataframe()
Pdf = Df.toPandas ()

现在Pdf是分布在spark集群中还是驻留在主机环境中??

正如DataFrame的PySpark源代码中所说:

    .. note:: This method should only be used if the resulting Pandas's DataFrame is expected
        to be small, as all the data is loaded into the driver's memory.

最新更新

PHP setCookie的子域在前端不是相同的子域
如何更改Kubeflow管道循环运行的参数?
是否有一种方法可以有条件地注册类型作为.net依赖注入的回退?
是否有一个库来创建时间间隔来检查是否给定时间在python中命中它们
Regex-空格无法获得整数值
模式改变时数据插入到增量表中
kubectl获取带有活动运行pod计数的服务
rxjs firstValueFrom never resolve
使用Office脚本从URL向特定单元格添加图像
动态添加数据到更多的TextView
moment.js和2021年10月的奇怪结果
如何在真正的无头模式下拦截使用puppeteer的所有页面请求?
从javascript中的for循环结果创建一个关联数组
列出卡片未在条带中检索
如果-否则不能在Tkinter下工作，请解决这个问题:
将2个按钮组合为1
如何重塑一个特定的数据集从长到宽没有J变量Stata?
如何使用 Linux Comand "convert -draw"更改添加到图像上的文本的大小
如何处理好友请求在数据库中的接受逻辑?
从Formik字段提取值并执行自定义onChange函数
Spring Boot JPA - SQL本地查询双撇号错误
jax的矢量化指南
Apache ActiveMQ Artemis HA集群部署在Kubernetes中，Istio代理注入到Artemis
Get DNS脚本在报告中缺少输出
Spring Boot Bucket4j在超过速率限制时自定义http响应体
查找SSIS .dtsx包中的表名
从情节中删除传说(R情节闪亮)
当我关闭会话或退出计算机时，计划任务是保持在后台运行Powershell脚本的唯一方法吗?
使用node-postgres创建一个依赖于先前查询结果的查询
发布在r的散点图中添加第二个变量

使用toPandas()方法创建的数据框分布在整个spark集群中

相关内容

最新更新

热门标签：