无法从 Netezza 表中删除重复数据

我正在尝试从netezza表中删除重复的记录。但是很少有列包含空值，因此下面的代码不起作用。

DELETE FROM TABLE_NAME a
     WHERE ROW_NUMBER() <> ( SELECT MIN( ROW_NUMBER() )
                               FROM TABLE_NAME b
                              WHERE a.COL1  = b.COL1
                                AND a.COL2  = b.COL2
                                AND a.COL3  = b.COL3);
Sample Data:-
COL1  COL2  COL3
X     NULL     Y
A     NULL     B
X     NULL     Y
X     NULL     Y
E     VAL      F
Expected result:
    COL1  COL2  COL3
    X     NULL     Y
    A     NULL     B
    E     VAL      F

注意：COL2 列包含空值。我们在此表中总共有 30 列，其中 6 列包含重复记录的 null 值。

任何人都可以在这个问题上帮助我。

DELETE FROM TABLE_NAME a
     WHERE ROW_NUMBER() <> ( SELECT MIN( ROW_NUMBER() )
                               FROM TABLE_NAME b
                              WHERE nvl(a.COL1,0)  = nvl(b.COL1,0)
                                AND nvl(a.COL2,0)  = nvl(b.COL2,0)
                               and nvl(a.COL3,0)  = nvl(b.COL3,0));

使用 NVL 函数将空值替换为 0

您可以使用 NVL 函数将 null 转换为可以比较的内容。*编辑：您评论说NVL不起作用。或者，您可以重写查询以显式处理 NULL：

例如：

DELETE FROM TABLE_NAME a
     WHERE ROW_NUMBER() <> ( SELECT MIN( ROW_NUMBER() )
                               FROM TABLE_NAME b
                              WHERE((a.COL1 = b.COL1) or (a.COL1 is null and b.COL1 is null))
                                AND ((a.COL2 = b.COL2) or (a.COL2 is null and b.COL2 is null))
                                AND ((a.COL3 = b.COL3) or (a.COL3 is null and b.COL3 is null));

尝试使用/=/运算符而不是 =在这些情况下，它通常对我有用

对于上下文，表的分布列是什么，表中有多少行，以及您希望其中重复的行百分比是多少？根据规模，CTAS 方法可能比 DELETE 方法更适合。

话虽如此，这里有一种方法可以让删除逻辑正确，但可能不是最好的表现。

TESTDB.ADMIN(ADMIN)=> select * from table_name;
 COL1 | COL2 | COL3 
------+------+------
 X    |      | Y
 X    |      | Y
 E    | VAL  | F
 A    |      | B
 X    |      | Y
(5 rows)
delete 
from 
        table_name
where   rowid in 
        ( select 
                rowid 
        from 
                ( select 
                        rowid, 
                        row_number() over (
                                   partition by col1, 
                                           col2     , 
                                           col3 
                                   order by 
                                           col1) rn
                from 
                        table_name
                ) foo
        where   rn > 1
        ) ;
DELETE 2
TESTDB.ADMIN(ADMIN)=> select * from table_name;
 COL1 | COL2 | COL3 
------+------+------
 A    |      | B
 X    |      | Y
 E    | VAL  | F
(3 rows)

相关内容

最新更新

热门标签：