在MERGE和SET之间选择合并SAS中的数据



我有一个关于方法论的一般性问题。我如何知道匹配合并(MERGE)或交错(SET)是否更适合组合数据集?如果我有两个相关的数据集,似乎包含许多相同的变量(但不是全部),但我不知道所述变量中的信息是否相同,哪个更好?

是否有某种通用规则来决定哪个更好?

谢谢你的建议。

这个问题真的没有一个好的答案;"合并"one_answers"交错"之间有根本的区别。花几分钟时间阅读SAS Concepts手册中的示例,特别是这里。

我认为这是一个非常具体到你的数据和你想要达到的目标的问题。你不应该合并数据集,直到你对数据有足够的了解,知道你是否可以合并它们(集)或想要匹配合并它们。不可能有一个通用的规则,因为它只是取决于你的数据——如果我有两个数据集

data have_1;
input x y;
datalines;
1 2
2 3
3 4
;;;;
run;
data have_2;
input x y z;
datalines;
1 2 3
2 3 4
3 4 5 
;;;;
run;

你可以猜到have_1和have_2是相同的观测值,只是增加了一个变量z;但它们也很容易是不同的观察结果。如果我告诉你'x'是唯一标识符,那么你会怀疑这是相同的记录;但如果我告诉你x和y是定性特征,那么它们很可能是恰好在定性上相似的不同观察结果。

这里的要点是:在使用数据之前先了解数据。如果你不了解你的数据,你就不应该首先使用它。

最新更新