小贝子编程

使用PIG处理小文件

根据我的理解，Map/Reduce在处理大文件时效果更好。（我理解这是由于拆分逻辑等），我们可以将文件作为值，将文件名作为键放在序列文件中并进行优化。

现在的问题是，我正在使用PIG进行分析，我们有大约数千个文件，但都是KB。正如我们所知，pig latin被转换为MR作业并作为MR作业运行，所以我怀疑MR作业是否会因为文件小而高效。

有没有什么方法可以让我控制小文件的处理？有现成的解决方案吗？

Pig具有将小文件组合成大块的功能：http://pig.apache.org/docs/r0.11.1/perf.html#combine-文件

最新更新