小贝子编程

在pyspark中为相同的customerID添加列值

本文关键字：customerID 添加 pyspark apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-23
英文 : Add columns values in pyspark for the same customerID

我有两个DF一个是满载的，另一个是增量的，我想为customer_ID添加数据，这两个data_frames都是相同的。因此，我的最终输出是customer_ID是相同的，但值是更新的。我想在数据帧中做，我有另一种方法，这很麻烦但由于需要制作几个分段表我想避免，我如何将数据添加到主表

全表

tbody> <<tr>

customer_ID	amount
ABC1234	20
ABC1235	10
ABC2222	20
ABC1345	10
ABC4444	5
ABC5555	9

您可以合并两个数据框，然后对同一客户的所有条目求和:

from pyspark.sql import functions as F
dfFull= ...
dfInc=...
dfResult=dfFull.union(dfInc).groupBy('customer_ID').agg(F.sum('amount').alias('amount'))

最新更新

按字母顺序对数据框中的每一行排序
我如何覆盖一个文件，而使用该文件内的组件?
pm2如何知道加载什么?
MySQL查询使用group by子句返回的行数多于不使用group by子句返回的行数
从一个命令运行多个pom文件
Docker Swarm Access Container to Container on Published Port
TypeError: Cannot read properties of undefined in Vue
如何使函数相除?
当 npm 启动时"tailwindcss requires PostCSS 8" PostCSS 错误
如何在Mac Os上安装pyrealsense2 ?
如何将GitLab Operator部署到AWS EKS集群?
Swift - API返回包含不同类型的数组
如何检测敲击
在Java中，我可以让父类实现使用子类变量的方法吗?
ThreeJS:网格消失，如果我改变它的位置
Accordion在我的HTML页面中没有按预期工作
为什么这个积分很难近似?
c++ Valgrind文件描述符
模型类"is not in the trusted packages"
如何计算R中的折扣?
该算法的Python代码用于识别k均值聚类中的异常值
如何将指向 C++ 函数中分配的数组的指针转换为 Rust 中的数组
有效计数器，用于计数python中文本文件中的错误输入尝试
用r中的字符替换不同长度的数字字符串
云构建触发器不应该基于git提交消息创建docker映像
r语言 - 根据标准删除列表组件
无法从用户获取数字并将其作为javascript切片方法的参数传递
在JavaScript中对JSON进行排序
React Axios Delete不每次渲染
Spring boot, Spring Security, React -自定义过滤器认证不起作用

在pyspark中为相同的customerID添加列值

相关内容

最新更新

热门标签：