在亚马逊 EMR 上运行 HBase 时,为什么 /tmp 文件夹与实际数据相比很大



我们在 Amazon EMR 上有一个采用默认配置的 hadoop+hbase 集群,因此 mapred.child.tmphbase.tmp.dir 都指向 /tmp 。我们的集群已经运行了一段时间,现在/tmp是 500Gb,而实际/hbase数据为 70Gb。

这种差异似乎太大了,我们应该定期删除一些/tmp数据吗?

经过一番调查,我发现我们/tmp数据的最大部分是由亚马逊自动备份 Hbase 到 S3 期间失败的 mapreduce 任务创建的。我们成功的mapreduce任务不会在/tmp留下太多数据。

我们

决定禁用Amazon的自动备份,并使用HBase工具导入/导出表来实现我们自己的备份脚本。

最新更新