我有一个包含数千个样本的csv,这些样本在不同处理后的基因表达应该进行比较:
ID U1 U2 U3 H1 H2 H3
1 5.95918 6.07211 6.01437 5.89113 5.89776 5.95443
2 6.56789 5.98897 6.67844 5.78987 6.01789 6.12789
..
我被要求做一个Mann Whitney u测试,当我使用这个时,R给了我结果:
results <- apply(data,1,function(x){wilcox.test(x[1:3],x[4:6])$pvalue})
然而,我只是得到像0.1或0.5的值…
当我添加alternative ="greater"
时,我得到了0.3500或0.05000的值,一些样本得到了0.14314的值(这是一个我可以接受的值)。所以我想知道为什么R给我这样奇怪的pvalues(0.3500,…),以及我如何修复它以获得"正常"的pvalues。
您正在进行非参数测试,其中测试统计数据来自排名。当样本大小为3时,测试统计量只有几个可能的不同值。
的例子:
set.seed(42)
x <- matrix(rnorm(3000), ncol=6)
ps <- apply(x, 1, function(a) wilcox.test(a[1:3], a[4:6])$p.value)
table(ps)
#ps
#0.1 0.2 0.4 0.7 1
# 54 45 108 141 152