我有很多小文件,比如说超过50000。 我需要使用 Map Reduce 概念一次处理这些文件,以根据输入文件生成一些分析。
请告诉我一种方法,也请让我知道如何使用 hdfs 将此小文件合并为一个大文件
请参阅cloudera的这篇博客文章,解释小文件的问题。
github中有一个名为FileCrush的项目,它确实合并了大量的小文件。从项目主页:
将许多小文件变成更少的大文件。还可以一次性从文本更改为序列和其他压缩选项。