如何一次处理多个文本文件以在Hadoop中使用mapreduce进行分析



我有很多小文件,比如说超过50000。 我需要使用 Map Reduce 概念一次处理这些文件,以根据输入文件生成一些分析。

告诉我一种方法,也请让我知道如何使用 hdfs 将此小文件合并为一个大文件

请参阅cloudera的这篇博客文章,解释小文件的问题。

github中有一个名为FileCrush的项目,它确实合并了大量的小文件。从项目主页:

将许多小文件变成更少的大文件。还可以一次性从文本更改为序列和其他压缩选项。

相关内容

  • 没有找到相关文章

最新更新