查找重复案例，字符串变量，SPSS

作为一部关于SPSS的小说，我正在努力根据包含大约33,000个案例的数据集中的字符串变量来寻找重复的案例。

我有一个名为"nr"的变量，它应该是每种情况下的唯一 id。但是，事实证明，某些情况可能在输入的"nr"中有两个不同的值，唯一的区别是最后一个字符。导致案例显示为两个单独的行。

var "nr" 的结构如下：XX-XXXXXXX-X 或 X-XXXXXXX-X，即 2-7-1 个字符或 1-7-1 个字符。

我想整理除最后一个字符之外所有"nr"等于另一个案例的情况。

为了说明这一点，使用成功的语法，我希望能够从整个数据集中对以下情况进行排序：

20-4026988-2
20-4026988-3

5-4026992-55-4026992-8

20-4027281-2
20-4027281-3

有人知道如何为此制作语法吗？如有任何意见，将不胜感激！

我建议创建一个没有最后一个字符的新变量，然后寻找双精度：

* first creating some sample data to play with.    
data list list/ID (a15).
begin data.
20-4026988-2
12-2345678-7
20-4026988-3
5-4026992-5
5-4026992-8
12-1234567-1
20-4027281-2
6-1234567-1
20-4027281-3
end data.
* now creating the new variable and counting the occurrences of each shortened ID.
string ShortID (a15).
compute ShortID=char.substr(ID,1,char.rindex(ID,"-")).
* also possible: compute ShortID=char.substr(ID,1,char.length(rtrim(ID))-1).
aggregate out=* mode=add /break=ShortID/occurrences=n.
* at this point you can filter based on the number or `occurrences` or sort them.
sort cases by occurrences (d) ShortID.

删除最后一个字符后，您可以使用"数据>识别重复案例"来查找重复案例。它作为许多有用的选项。

相关内容

最新更新

热门标签：