MYSQL:查找和删除相似的记录-用示例更新

我试图删除一个表，在那里我知道有'接近'(但不确切)行需要删除。

我有一个表，有22个字段，通过比较其中的5个字段可以建立唯一性。在剩下的17个字段(包括唯一键)中，有3个字段导致每行都是唯一的，这意味着dedup正确方法将不起作用。

我正在查看这里概述的多表删除方法:http://blog.krisgielen.be/archives/111但我无法理解最后一行代码(AND M1.cd*100+M1)。track> M2.cd*100+M2.track)，因为我不确定cd*100部分实现了什么…

有谁能帮我一下吗?我怀疑我可以做得更好，把整个东西导出到python，用它做点什么，然后重新导入它，但是(1)我被困在知道如何删除字符串!(2)我不得不将记录分成几块，以便能够将其导入mysql，因为它在300秒后就超时了，所以它首先变成了一个完整的debarkle来进入mysql ....(我对mysql和python都是新手)

该表是一些测试中大约40个日志文件的转储。每个日志的测试集大约有20,000个文件。重复值是测试条件、文件名/参数或测试结果。

    CREATE SHOW TABLE:
    CREATE TABLE `t1` (
     `DROID_V` int(1) DEFAULT NULL,
     `Sig_V` varchar(7) DEFAULT NULL,
     `SPEED` varchar(4) DEFAULT NULL,
     `ID` varchar(7) DEFAULT NULL,
     `PARENT_ID` varchar(10) DEFAULT NULL,
     `URI` varchar(10) DEFAULT NULL,
     `FILE_PATH` varchar(68) DEFAULT NULL,
     `NAME` varchar(17) DEFAULT NULL,
     `METHOD` varchar(10) DEFAULT NULL,
     `STATUS` varchar(14) DEFAULT NULL,
     `SIZE` int(10) DEFAULT NULL,
     `TYPE` varchar(10) DEFAULT NULL,
     `EXT` varchar(4) DEFAULT NULL,
     `LAST_MODIFIED` varchar(10) DEFAULT NULL,
     `EXTENSION_MISMATCH` varchar(32) DEFAULT NULL,
     `MD5_HASH` varchar(10) DEFAULT NULL,
     `FORMAT_COUNT` varchar(10) DEFAULT NULL,
     `PUID` varchar(15) DEFAULT NULL,
     `MIME_TYPE` varchar(24) DEFAULT NULL,
     `FORMAT_NAME` varchar(10) DEFAULT NULL,
     `FORMAT_VERSION` varchar(10) DEFAULT NULL,
     `INDEX` int(11) NOT NULL AUTO_INCREMENT,
     PRIMARY KEY (`INDEX`)
    ) ENGINE=MyISAM AUTO_INCREMENT=960831 DEFAULT CHARSET=utf8

唯一唯一的字段是PriKey 'index'。

通过查看DROID_V, Sig_V, SPEED可以建立唯一记录。NAME和PUID

在900,000行中，我有大约10,000个dup，它们要么是单个记录的副本，要么是多达6个记录的重复。

行示例:As Is

    5;"v37";"slow";"10266";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/7";"image/tiff";"Tagged Ima";"3";"191977"
    5;"v37";"slow";"10268";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/8";"image/tiff";"Tagged Ima";"4";"191978"
    5;"v37";"slow";"10269";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/9";"image/tiff";"Tagged Ima";"5";"191979"
    5;"v37";"slow";"10270";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/10";"image/tiff";"Tagged Ima";"6";"191980"
    5;"v37";"slow";"12766";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/7";"image/tiff";"Tagged Ima";"3";"193977"
    5;"v37";"slow";"12768";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/8";"image/tiff";"Tagged Ima";"4";"193978"
    5;"v37";"slow";"12769";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/9";"image/tiff";"Tagged Ima";"5";"193979"
    5;"v37";"slow";"12770";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/10";"image/tiff";"Tagged Ima";"6";"193980"

行示例:As It should be

    5;"v37";"slow";"10266";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/7";"image/tiff";"Tagged Ima";"3";"191977"
    5;"v37";"slow";"10268";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/8";"image/tiff";"Tagged Ima";"4";"191978"
    5;"v37";"slow";"10269";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/9";"image/tiff";"Tagged Ima";"5";"191979"
    5;"v37";"slow";"10270";;"file:";"V1-FL425817.tif";"V1-FL425817.tif";"BINARY_SIG";"MultipleIdenti";"20603284";"FILE";"tif";"2008-11-03";;;;"fmt/10";"image/tiff";"Tagged Ima";"6";"191980"

请注意，您可以从末尾的索引列中看到，我已经删除了一些其他行-我只识别了非常小的重复行集。如果您需要其他DB中的更多"噪音"，请告诉我

谢谢。

我想出了一个修复-使用计数函数，我使用的是COUNT(*)，只是返回表中的所有内容，通过使用COUNT (distinct NAME)函数，我能够剔除符合dup标准的dup行(如WHERE子句中的字段选择所示)

的例子:

SELECT `PUID`,`DROID_V`,`SIG_V`,`SPEED`, COUNT(distinct NAME) as Hit FROM sourcelist, main_small WHERE sourcelist.SourcePUID = 'MyVariableHere' AND main_small.NAME =  sourcelist.SourceFileName 
GROUP BY `PUID`,`DROID_V`,`SIG_V`,`SPEED` ORDER BY `DROID_V` ASC, `SIG_V` ASC, `SPEED`;

相关内容

最新更新

热门标签：