在我的数据文件中,我通过选择案例选择固定大小的随机样本。假设我有 400 个案例,我随机选择 150 个。所有案例都有年龄和性别值。我现在想测试样本(150 例)的 AGE 和 分布与其余样本(250 例)的 AGE 和 分布,并检查我的样本是否代表人群。
我的解决方案是计算两个新变量,我根据样本或休息将值放入其中。这里的年龄:
IF (filter_$ EQ 1) sample_age = age.
IF (filter_$ EQ 0) rest_age = age.
EXECUTE .
然后,如何对sample_age和rest_age进行测试?哪种测试是合适的?
数据如下所示:
person sample_age rest_age
1 29 .
2 56 .
3 . 34
4 . 12
5 65 .
不应创建具有缺失值的新变量。假设您已计算标识单独样本的filter_$
变量,对于连续年龄变量,您可以估计独立样本 t 检验。
T-TEST GROUPS = filter_$ (1 0)
/VARIABLES=age.
对于分类性别,您可以运行CROSSTABS
并计算卡方统计量。
CROSSTABS
/TABLES = filter_$ BY sex
/STATISTICS=CHISQ.