根据我的理解,Map/Reduce在处理大文件时效果更好。(我理解这是由于拆分逻辑等),我们可以将文件作为值,将文件名作为键放在序列文件中并进行优化。
现在的问题是,我正在使用PIG进行分析,我们有大约数千个文件,但都是KB。正如我们所知,pig latin被转换为MR作业并作为MR作业运行,所以我怀疑MR作业是否会因为文件小而高效。
有没有什么方法可以让我控制小文件的处理?有现成的解决方案吗?
Pig具有将小文件组合成大块的功能:http://pig.apache.org/docs/r0.11.1/perf.html#combine-文件