我有不均匀数量的观察结果,我想将它们组合成四分位数。为此,我使用了函数分位数:
a <- round(rnorm(187, mean=100, sd=20))
Quartile <- as.integer(cut(a, quantile(a, probs=0:4/4), include.lowest=TRUE))
正如预期的那样,每个四分位数都有不同数量的观察结果。我的问题是,是什么决定了一个处于极限(例如,四分位数1和四分位数2之间(的观测值最终被分配给四分位数1。
如有任何帮助,将不胜感激
这个问题实际上是关于cut
如何工作的。请参阅下面的参数。
cut(x, breaks, labels = NULL,
include.lowest = FALSE, right = TRUE, dig.lab = 3,
ordered_result = FALSE, …)
您的问题涉及名为";对,";其决定该区间是包括该区间的右边的值还是左边的值。您可以根据要使用的包含规则类型更改此参数。在统计学中,选择哪种方式没有硬性规定;这取决于你,但一旦你为任何给定的项目做出决定,就应该始终如一地使用相同的方法。
不过,我想回答你的问题,如果你坚持默认值,并且有东西落在边界上,它将被包括在较低的间隔中。