小贝子编程

在Spark中，sc.newAPIHadoopRDD在5个分区中读取2.7 GB数据

本文关键字：GB 数据读取 5个 Spark sc newAPIHadoopRDD 分区 apache-spark hbase apache-spark-sql
更新时间 : 2023-08-24
英文 : In Spark sc.newAPIHadoopRDD is reading 2.7 GB data the with 5 partitions

我正在使用spark 1.4，我试图通过使用scc . newapihadooprdd读取2.7 GB数据从Hbase读取数据，但是有5个任务是为这个阶段创建的，需要2到3分钟来处理它。谁能告诉我如何增加更多的分区来快速读取数据?

org.apache.hadoop.hbase.mapreduce.TableInputFormat为每个区域创建一个分区。你的桌子似乎被分成了5个区域。预拆分表应该会增加分区的数量(有关拆分的更多信息，请参阅此处)。

最新更新

是否有一个库来创建时间间隔来检查是否给定时间在python中命中它们
Regex-空格无法获得整数值
模式改变时数据插入到增量表中
kubectl获取带有活动运行pod计数的服务
rxjs firstValueFrom never resolve
使用Office脚本从URL向特定单元格添加图像
动态添加数据到更多的TextView
moment.js和2021年10月的奇怪结果
如何在真正的无头模式下拦截使用puppeteer的所有页面请求?
从javascript中的for循环结果创建一个关联数组
列出卡片未在条带中检索
如果-否则不能在Tkinter下工作，请解决这个问题:
将2个按钮组合为1
如何重塑一个特定的数据集从长到宽没有J变量Stata?
如何使用 Linux Comand "convert -draw"更改添加到图像上的文本的大小
如何处理好友请求在数据库中的接受逻辑?
从Formik字段提取值并执行自定义onChange函数
Spring Boot JPA - SQL本地查询双撇号错误
jax的矢量化指南
Apache ActiveMQ Artemis HA集群部署在Kubernetes中，Istio代理注入到Artemis
Get DNS脚本在报告中缺少输出
Spring Boot Bucket4j在超过速率限制时自定义http响应体
查找SSIS .dtsx包中的表名
从情节中删除传说(R情节闪亮)
当我关闭会话或退出计算机时，计划任务是保持在后台运行Powershell脚本的唯一方法吗?
使用node-postgres创建一个依赖于先前查询结果的查询
发布在r的散点图中添加第二个变量
汇编函数地址表和函数下或数据段中的数据
如何解析常规(不是换行分隔)json与Apache Beam和杰克逊?
检索策略.netprofit，策略.由于在循环/迭代(FOR)中更改参数而关闭的交易

在Spark中，sc.newAPIHadoopRDD在5个分区中读取2.7 GB数据

相关内容

最新更新

热门标签：