如何详细获取HDFS使用情况报告



我们获得了容量900TB的HDF。随着数据的增长,很难跟踪有用和可以删除的内容。我想分析以下模式的HDFs使用量,以便可以最佳地使用容量。

  1. 什么是经常访问的数据。
  2. 长期未触摸/访问的数据(删除可能的候选)
  3. 用户的数据使用分配。
  4. 活动用户。

您可以从:

中得出该数据
  • (1)HDFS审核日志(每个用户/IP访问模式)
  • (2)fsimage(每个文件访问时间,数据未访问)

(1)您是否启用了HDFS审核日志?在这里阅读更多。

(2)要从fsimage开始阅读此内容 - 有一个示例可以获取"长时间触摸/访问数据"

您也可能要考虑HAR存档数据(而不是删除) - 因此减少了Namenode上的存储使用情况和宝贵的内存。

相关内容

  • 没有找到相关文章

最新更新