小贝子编程

避免在sparkSQL中使用笛卡尔连接

本文关键字：笛卡尔连接 sparkSQL scala apache-spark apache-spark-sql datastax-enterprise
更新时间 : 2023-08-23
英文 : Avoid cartesian join in sparkSQL

Dataframe A(百万条记录)其中一列是create_date,modified_date

数据帧B 500条记录有start_date和end_date

当前的方法:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

上面的查询在sparkSQL中执行笛卡尔积连接，并且需要很长时间才能完成。我可以通过其他方式实现相同的功能吗?我试着广播较小的RDD

编辑:

spark version 1.4.1
No. of executors 2
Memmory/executor 5g
No. of cores 5

由于spark sql不支持Non-equi，因此无法避免笛卡尔积链接

最新更新

汇编函数地址表和函数下或数据段中的数据
如何解析常规(不是换行分隔)json与Apache Beam和杰克逊?
检索策略.netprofit，策略.由于在循环/迭代(FOR)中更改参数而关闭的交易
绑定到第三类的两个类之间的关系是什么?
如何发送一个GET请求与SetTimeout和获取数据，如果它还没有准备好?
AND搜索字符串数组Elasticsearch
如何在Python中访问Object值
试图让计算机猜出我的数字，但要让上限和下限工作
自治数据库是否提供与本地数据库相同的NLS支持?
OpenAI嵌入API:如何嵌入工作?
如何在C#中用正则表达式查找并替换较大文件(150MB-250MB)中的文本
如何在Visual Studio Code中更改从交互式Jupyter shell中保存图形的默认路径?
PHP 8属性构造函数调用
我在为java选择selenium中的按钮时遇到问题
一个字符串如何可以是接口类型{}
TYPO3 v11.5 #1578950324 RuntimeException -给定的页面记录无效.失踪的uid.B
如何使WebGPU运行在Chrome金丝雀97?
我想通过input split将其分为command, key, value，并输入到字典中
仅使用CSS在单选按钮选中后切换div内容
从列表中自动创建多个Google工作表
在django上处理select multiple
Guid在视图页面中显示空字符串.净MVC)
所有大写字母和所有非字母字符的正则表达式是什么
Python Pyparsing Located vs locatedExpr
c#中具有列表值的字典的类型转换
c++继承模板特化
为什么我的flappy bird游戏只加载图像?
如何使用Maven从pom.xml中访问settings.xml中的元素?
错误：不支持 -： 'list' 和'int'的操作数类型
我的输出总是相同的，但我应该根据我输入的数字给出不同的答案"efektywnosctypu"

避免在sparkSQL中使用笛卡尔连接

相关内容

最新更新

热门标签：