小贝子编程

仅使用ID不包含在第二个DataFrame中的行创建新的DataFrame

本文关键字：DataFrame 创建第二个 ID 包含 python apache-spark pyspark apache-spark-sql
更新时间 : 2023-08-20
英文 : Make new DataFrame only with rows whose ID is not contained in second DataFrame

有两个dataframe。一个是df1，包含事件，其中一列是ID。另一个df2只含有ID -s。

如何最好地创建df3，它只包含ID不存在于df2中的行。

看起来Spark SQL不支持这种类型的查询:

sqlContext.sql(""" SELECT * FROM table_df1
WHERE ID NOT IN (SELECT ID FROM table_df2) """)

Spark SQL将从Spark 2.0版本开始支持这种类型的子查询(更多信息可在Databricks博客上获得)。

在旧版本的Spark中可以这样做:

df3 = sqlContext.sql(
    """
    select 
     *
    from df1 left join df2 on df1.id=df2.id 
    where df2.id is null
    """
)

最新更新

restorePreviousSignIn()在GIDSignIn-iOS SDK V6.0.2到期时不获取新的idTo
从Nodejs发送的错误请求-原始消息缺少头部信息
Oracle 将今天的值传递给变量并使用它
r语言 - 是否有可能把3D网格和arc3d对象在同一个rgl窗口，同时允许单独旋转?
依次递增的号码，如123 + 123 = 123123
SQL:如何使用参数变量重命名标题?
在Shopify中隐藏折扣代码输入字段
无法导入外部 NPM 包来制作角度库
掩码输入字段的长度验证
用点分隔符分隔列
在Mac上将Xerces库构建为通用二进制文件的问题
在同级组件之间使用共享服务共享数据，在Angular中返回空
为什么我的 C 结构在输入中没有获取任何数据？
org.keycloak.adapters.springboot.KeycloakSpringBootConfigResolver 不存在
为一个非常大的数据库优化SPARQL查询
Python线程请求计数
将结果保存为pyspark多输出循环中的数据帧
这两个数组的区别是什么?
如何在主线程上运行async await
React Native FlatList ListEmptyComponent总是显示，即使不是空的
Android Emulator未在M1上运行
我的' collate_fn '函数在传递给Trainer函数的collate_fn参数时得到空数据
访问documentRoot以外的所有图像，而不是Apache windows
如何从React或Javascript中的对象属性中获取值
Redux工具箱:从切片文件导出一个自定义钩子来访问动作，而不是导出所有的动作，然后再次调用调度? &
CSS难题:孩子们总是闯入多行
贴现率，公式
使用 Javascript 的嵌套数组循环生成和排序所有象限中 (0,0) 周围的笛卡尔坐标
如何在Windows上添加现有的mysql模式
从Google VPS中恢复删除的文件夹

仅使用ID不包含在第二个DataFrame中的行创建新的DataFrame

相关内容

最新更新

热门标签：