如何删除/hadoop/hdfs/journal/hdfsha/current/下非常大的文件 &g



在我们的HDP集群- 2.6.5版本,使用ambari平台

我们注意到/hadoop/hdfs/journal/hdfsha/current/文件夹包括巨大的文件和超过1000个文件

-rw-r--r--. 1 hdfs hadoop 494690334 Dec 28 11:37 edits_0000000017251672645-0000000017253719335
-rw-r--r--. 1 hdfs hadoop 524892007 Dec 28 12:37 edits_0000000017253719336-0000000017255810613
-rw-r--r--. 1 hdfs hadoop 509365350 Dec 28 14:17 edits_0000000017255810614-0000000017258005682
-rw-r--r--. 1 hdfs hadoop 526756290 Dec 28 15:07 edits_0000000017258005683-0000000017260117992

为了尽量减少日志编辑日志,我们可以使用以下内容作为HDFS的一部分(HDFS -site.xml)

我们不确定-dfs.namenode.num.extra.edits.retained是否意味着只保留100个文件

请告知以下配置是否可以帮助清除

中的额外日志文件
dfs.namenode.num.extra.edits.retained=100
dfs.namenode.max.extra.edits.segments.retained=1
dfs.namenode.num.checkpoints.retained=1

参考- https://www.ibm.com/support/pages/how-remove-very-large-files-under-hadoophdfsnamecurrent-biginsights-30-save-disk-space

清理日志编辑占用的空间,您的方法是正确的。但是,这些值太小了,如果出现问题,可能会丢失数据。

"dfs.namenode.num.extra.edits.retained"默认为"1000000","dfs.namenode.max.extra.edits.segments.retained"默认为"10000"。

我建议以下值:-

dfs.namenode.num.extra.edits.retained=100000
dfs.namenode.max.extra.edits.segments.retained=100
dfs.namenode.num.checkpoints.retained=2

你可以在这里找到所有这些参数的详细信息,值可以是任何值,这取决于你所选择的环境。

也有同样的问题,编辑开始在NN和日志节点中积累。原来备用神经网络坏了。阅读文档,发现合并和清理编辑是备用NN的责任。
在非ha模式下,是SecondaryNN在做这些。
所以要确保你的备用/辅助NN运行正常。

最新更新