hadoop从hdfs中已有的归档文件中获取文件



我有一个目录"SmallFiles"包含8个文件,我使用"hadoop archive -archiveName myArch将它们归档。har -p/Files/SmallFiles/Files"然后删除原始文件。我想知道如何再次提取文件?

当我下载它时,我得到这3个文件"index, masterindex, part-0">

您需要通过har://URI访问存档文件。

因此,用以下方式归档的文件:hadoop archive -archiveName foo.har -p /user/hadoop dir1 dir2 /user/zoo会被访问hadoop dfs -lsr har:///user/zoo/foo.har/

我认为这里的文档是直截了当的:https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html