小贝子编程

在亚马逊 EMR 上运行 HBase 时，为什么 /tmp 文件夹与实际数据相比很大

本文关键字：文件夹 tmp 数据运行 EMR 亚马逊 HBase hadoop hbase amazon-emr
更新时间 : 2023-09-04
英文 : When running HBase on amazon EMR, why does /tmp folder is huge compared to the actual data?

我们在 Amazon EMR 上有一个采用默认配置的 hadoop+hbase 集群，因此 mapred.child.tmp 和 hbase.tmp.dir 都指向 /tmp 。我们的集群已经运行了一段时间，现在/tmp是 500Gb，而实际/hbase数据为 70Gb。

这种差异似乎太大了，我们应该定期删除一些/tmp数据吗？

经过一番调查，我发现我们/tmp数据的最大部分是由亚马逊自动备份 Hbase 到 S3 期间失败的 mapreduce 任务创建的。我们成功的mapreduce任务不会在/tmp留下太多数据。

我们

决定禁用Amazon的自动备份，并使用HBase工具导入/导出表来实现我们自己的备份脚本。

最新更新

尝试创建一个伸缩盒容器，但它不会创建盒子并显示文本
是否有一种方法(最好是R)从BirdLife数据区自动提取信息?
为什么process.env.JWT_EXPIRE未被发现?js筑巢
Python记录器没有从根记录器继承level
是什么导致了python的f字符串中"f "{a}""与"f "{a=}""之间的差异？
标题库使用介子
打印偶数的"count"，而循环使用 if
为什么我要将数组转换为对象
通过共享操作符将可连接的Flux转换为Hot不工作
从演示文稿中删除所有空的/未使用的形状
破坏错误取决于变量的顺序
c -试图编写一个MIPS汇编程序
消息队列推送通知/邮件应用程序?
如何在根目录下安装gitignore
我应该如何测试一个API调用拒绝是在一个上下文中?
百分比值到绝对值，反之亦然，由于整数四舍五入，转换导致不匹配
由于 NBM 的原因，我无法在 NetBeans 中下载代号一插件
如何组织项目与多个Go模块和使用Docker撰写?
蓝牙BLE设备配对后未绑定
为什么我在 Django 中显示用户配置文件的代码不起作用？
使用api平台图形查询读取空间点类型
如何处理嵌套角色中超出范围的变量
std::vector and move semantics
ImageMagick多个命令，带有不同的源和目标文件夹和文件
是否有一个特定的键进入一个字符和退出插入模式在vim vscode扩展?
c - NULL值在运行时被重新分配给垃圾
我如何将这个python函数转换为c++?
我可以用pybliometrics找到论文的通讯作者是谁，以及他们的电子邮件地址吗?
了解如何在Ruby on Rails中使用Turbo
解码mediaRecorder音频文件在Python中

在亚马逊 EMR 上运行 HBase 时，为什么 /tmp 文件夹与实际数据相比很大

相关内容

最新更新

热门标签：