小贝子编程

如何查找哪个分区偏向(加入大表格)

本文关键字：表格何查找查找分区 apache-spark apache-spark-sql
更新时间 : 2023-09-07
英文 : How to find which partition is skewed (while joining large tables)?

我通过ID加入了2个大表（数十亿x行）。例如，

table1.join(table2, Seq("id"))

我的火花作业到了这一点"相当快"：

Stage 19: 60000/60001 (1 running)

问题是，这1个运行工作需要数小时，这比其他工作多。

==>如何确定联接中的哪个"键"导致长期运行？

==>有没有办法写信给执行人的Stdout以提供更多调试信息？

，因为您是根据列ID

加入的

我遵循的一件简单的事情是计数最大出现ID。

df.groupBy("id").count.sort(desc("count")).take(10).foreach(println)

这将为您提供前10名" ID"，该" ID"具有最大数量的数据集中。

最新更新

PendingIntent问题构建Android 12的React Native应用程序(FLAG_IMMUTABLE)
停止windows defender/Antivirus检测myapp
在Javascript中创建名为zip()的函数
c -我如何得到一个可用的int转换语句从一个空指针?
如何热切加载多态关系-在LARAVEL?
有没有可能使用python在纯Java中制作一个本机
在我的 laravel 应用程序中，日期以"0000-00-00"格式保存在 mysql 上
如何从IL指令生成c#代码
如何从两个不同的表中组合一个公共列内的值?
当使用索引而不是词引用SET成员时，无法使用REPLACE更新表中的MySQL SET数据类型 &g
旅游产品库存和数量
AWS Sagemaker输出如何读取文件与多个json对象分布在多行
根据类别级别进行排序
如何在chrome扩展中获得令牌?
在Julia中定义抽象类型的默认方法
无法启动新的Nextjs应用程序
nasm x86-64，超过值时单词比较出现问题
如何使用多处理池与列表?
不能使标签固定在顶部的导航栏部分后，点击
在.net中实现一个API服务，向Apple Wallet发送后台通知
如何在React中创建动态表单
写入使用导入流链接模块或运行子进程或操作系统.系统命令吗?
如何通过http创建远程git存储库
如何在Background-image:url中调用vue.js对象
不能转义带有计时器的for循环
SQL Server 中的术语"列"和"字段"之间有什么区别？
如何在gradle多模块项目中创建可重用的任务?
如何结合RXJS后的结果?
SQL Row Count Over Partition By
Lombok:在构造函数中只生成几个参数的注释

如何查找哪个分区偏向(加入大表格)

相关内容

最新更新

热门标签：