我们获得了容量900TB的HDF。随着数据的增长,很难跟踪有用和可以删除的内容。我想分析以下模式的HDFs使用量,以便可以最佳地使用容量。
- 什么是经常访问的数据。
- 长期未触摸/访问的数据(删除可能的候选)
- 用户的数据使用分配。
- 活动用户。
您可以从:
中得出该数据- (1)HDFS审核日志(每个用户/IP访问模式)
- (2)fsimage(每个文件访问时间,数据未访问)
(1)您是否启用了HDFS审核日志?在这里阅读更多。
(2)要从fsimage开始阅读此内容 - 有一个示例可以获取"长时间触摸/访问数据"
您也可能要考虑HAR存档数据(而不是删除) - 因此减少了Namenode上的存储使用情况和宝贵的内存。