如何强制 PigStorage 输出几个大文件而不是数千个小文件

我在猪脚本中使用这些行：

set default_parallel 20;
requests = LOAD ‘/user/me/todayslogs.gz’ USING customParser;
intermediate_results = < some-processing ... >
some_data = FOREACH intermediate_results GENERATE day, request_id, result;
STORE some_data INTO '/user/me/output_data' USING PigStorage(',');

'/user/me/todayslogs.gz' 包含数千个 gzip 文件，每个文件大小为 200 MB。

当脚本完成时，'/user/me/output_data' 在 HDFS 上有数千个微小的（<1 KB）文件。

我必须在另一个 pig 脚本中读取"/user/me/output_data"中的文件以进行进一步处理。我看到它损害了性能。如果 some_data 输出的文件是 gzip 格式的，则性能会更差。

这是MapReduceLauncher的输出。

2013-11-04 12:38:11,961 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Processing aliases campaign_join,detailed_data,detailed_requests,fields_to_retain,grouped_by_reqid,impressions_and_clicks,minimal_data,ids_cleaned,request_id,requests,requests_only,requests_typed,xids_from_request
2013-11-04 12:38:11,961 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - detailed locations: M: requests[30,11],campaign_join[35,16],null[-1,-1],null[-1,-1],detailed_requests[37,20],detailed_data[39,16],null[-1,-1],minimal_data[49,15],null[-1,-1],ids_cleaned[62,18],grouped_by_reqid[65,21] C:  R: null[-1,-1],xids_from_request[66,21],impressions_and_clicks[69,26],fields_to_retain[70,20],requests_only[67,17],request_id[68,18],requests_typed[73,17]

如何强制 PigStorage 将输出写入更少的输出文件？

发生这种情况的原因是您的工作仅是地图。在处理过程中不需要缩减阶段，因此每个映射器将记录输出到自己的文件中，并且每个映射器最终都有一个文件。如果您有数千个输入文件，则有数千个输出文件。

当您使用ORDER BY时，这种情况消失的原因是因为它触发了一个缩减阶段，此时默认并行度 20 开始发挥作用。

如果要避免此行为，则必须以某种方式强制缩减阶段。既然你已经在做JOIN，你可以选择不做这个USING 'replicated'。或者，如果您处于不执行连接的情况，则可以使用无操作GROUP BY强制它，如下所示：

reduced = FOREACH (GROUP some_data BY RANDOM()) GENERATE FLATTEN(some_data);

您可能希望合并多个输入文件并将其馈送到单个映射器中。以下链接应该对您有所帮助。
http://pig.apache.org/docs/r0.10.0/perf.html#combine-files

您可能希望对第一个脚本和第二个脚本执行此操作。

另一种解决方案是在作业后运行脚本，将小文件连接成大文件。

相关内容

最新更新

热门标签：