猪歪了，大桌子导致"Split metadata size exceeded 10000000"

我们在一个小的(16M行)不同的表和一个大的(6B行)倾斜的表之间有一个猪连接。常规连接在2小时内完成(经过一些调整)。我们尝试了using skewed，并能够将性能提高到20分钟。

然而，当我们尝试一个更大的倾斜表(19B行)时，我们从SAMPLER作业得到以下消息:

Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]

每次我们尝试using skewed时，这都是可重复的，并且当我们使用常规连接时不会发生。

我们尝试设置mapreduce.jobtracker.split.metainfo.maxsize=-1，我们可以看到它在job.xml文件中，但它没有改变任何东西!

这是怎么回事?这是using skewed创建的分布样本的错误吗?为什么把参数改成-1没有帮助呢?

1MB的小表足够小，可以放入内存中，尝试复制连接。复制连接仅是Map，不像其他类型的连接那样引起Reduce阶段，因此不受连接键倾斜的影响。应该很快。

big = LOAD 'big_data' AS (b1,b2,b3);
tiny = LOAD 'tiny_data' AS (t1,t2,t3);
mini = LOAD 'mini_data' AS (m1,m2,m3);
C = JOIN big BY b1, tiny BY t1, mini BY m1 USING 'replicated';

大表总是语句的第一个。

更新1:

如果原始形式的小表不适合内存，那么作为一种解决方案，您需要将小表划分为足够小以适合内存的分区，然后将相同的分区应用于大表，希望您可以在创建大表的系统中添加相同的分区算法，这样您就不会浪费时间重新分区它。分区之后，您可以使用复制连接，但是需要为每个分区分别运行pig脚本。

在较新版本的Hadoop(>=2.4.0，但可能更早)中，您应该能够通过使用以下配置属性在作业级别设置最大分割大小:

mapreduce.job.split.metainfo.maxsize = 1

相关内容

最新更新

热门标签：