我想从另一个配置单元表插入到分区配置单元表中。数据在目标表中的单个分区中传输。问题是所有减速器完成得非常快,但其中一个减速器需要很长时间,因为所有工作都交给了那个减速器。
我想找到一种方法来设置在所有化简器中平均分配的工作。有什么办法吗?如何提高插入覆盖的性能?
源表 DDL :
CREATE EXTERNAL TABLE employee ( id INT,first_name String,latst_name String,email String,gender String) STORED AS TEXTFILE '/emp/data'
目标表 DDL :
CREATE EXTERNAL TABLE employee_stage ( id INT,first_name String,latst_name String,email String,gender String) PARTITIONED BY (batch_id bigint) STORED AS ORC LOCATION '/stage/emp/data'
这是数据快照
1 Helen Perrie hperrie0@lulu.com Female
2 Rafaelita Jancso rjancso1@cdbaby.com Female
3 Letti Kelley lkelley2@slideshare.net Female
4 Adela Dmisek admisek3@state.gov Female
5 Lay Reyner lreyner4@wired.com Male
6 Robby Felder rfelder5@microsoft.com Male
7 Thayne Brunton tbrunton6@sun.com Male
8 Lorrie Roony lroony7@oracle.com Male
9 Hodge Straun hstraun8@w3.org Male
10 Gawain Tomblett gtomblett9@toplist.cz Male
11 Carey Facher cfachera@ca.gov Male
12 Pamelina Elijahu pelijahub@goo.ne.jp Female
13 Carmelle Dabs cdabsc@bizjournals.com Female
14 Moore Baldrick mbaldrickd@yandex.ru Male
15 Sheff Morin smorine@purevolume.com Male
16 Zed Eary zearyf@livejournal.com Male
17 Angus Pollastrone apollastroneg@wikispaces.com Male
18 Moises Hubach mhubachh@usnews.com Male
19 Lilllie Beetham lbeethami@diigo.com Female
20 Mortimer De Hooge mdehoogej@ucoz.com Male
源表包含超过 100M 条记录。
这是我正在使用的 hql。
insert overwrite table employee_stage
PARTITION (batch_id)
SELECT
id,
first_name,
latst_name,
email,
gender,
123456789 as batch_id
FROM employee;
数据在单个分区中传输。
在这种情况下,请告诉我如何提高性能?有没有办法在所有化简器之间平均分配行?
我想您没有在insert overwrite
查询中进行 JOIN 或其他一些繁重的转换,并且在插入过程中确实发生了倾斜。因为如果你这样做,那么问题不应该是关于插入的。
尝试将distribute by batch_id
添加到插入查询中,然后重新运行。如果仍然以倾斜运行,请检查您的数据。某些特定batch_id
的数据太多,或者您可能有很多空值。如何处理偏斜数据有不同的方法。其中之一是过滤掉倾斜的键并单独加载它们。在作业跟踪器上检查长时间运行的减速器日志,它将为您提供有关问题所在的更多信息。