r语言 - pscl::p redict.hurdle 概率之和不等于 1 - r - pscl::predict.hurdle probabilities do not sum to 1 小贝子编程网

我正在使用pscl包中的predict.hurdle函数来估计在数据集中观察0，1，2，...，N事件的概率。

使用?predict.hurdle中的示例：

data("bioChemists", package = "pscl")
fm_hp1 <- hurdle(art ~ ., data = bioChemists)
summary(fm_hp1)
head(predict(fm_hp1, newdata = bioChemists, type = "prob"))
# returns a matrix of probabilities too large to show here

此矩阵的每一行都是一个观测值，每列都是该计数的概率，在本例中为 0-19。

summary(rowSums(predict(fm_hp1, newdata = bioChemists, type = "prob")))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.9998  1.0000  1.0000  1.0000  1.0000  1.0000

但是有些行的总和不是 1。但是好吧，他们很接近，所以也许这不是问题......

但是，我需要校准截距项。在我的行业中，"校准"是"更改估计参数"的一种可以接受的说法。是的，我知道有很多原因可以解释为什么这在统计上不是一个好主意（故意偏向估计）。但是，我仍然希望代码能够工作，并且预测能够遵守概率规则。

# Change the count model intercept
fm_hp1$coefficients$count["(Intercept)"] <- 3
summary(rowSums(predict(fm_hp1, newdata = bioChemists, type = "prob")))
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.001521 0.434300 0.647400 0.602000 0.818400 0.983900

现在我们看到结果概率的一些主要问题。

我很想通过以下方式简单地以 0-1 的比例重新规范这些实用程序：

old.p <- predict(fm_hp1, newdata = bioChemists, type = "prob")
new.p <- t(apply(X = old.p, MARGIN = 1, FUN = function(x) x/sum(x)))
summary(rowSums(new.p))

但我担心概率总和为 1 的问题的原因意味着这是不合适的。

我的担心有根据吗？我是否需要修改另一个fm_hp1元素才能更改截距项，但仍能获得正确的概率预测？

hurdle() 中支持的计数分布都支持 0、1、2、...（直至无穷大）。因此，为了精确地求和为 1，您必须汇总所有这些整数 0、1、2、...

由于无穷多个值在实践中没有用，因此predict()方法仅提供有限数量的整数的概率，默认情况下为0，1，2，...，max（y），即直到观察到的最大响应。对于bioChemists数据，这是 0， 1， ...， 19。

因此，通过仅取这些概率的总和，您可以忽略所有更高计数的概率。通常，这个概率权重很小，如您的第一个摘要所示。但是，如果您增加截距，则比原始数据集中更高的计数的可能性要高得多（期望值增加约10倍！因此，您需要总结更大的支持。您可以通过提供at参数来执行此操作：

summary(rowSums(predict(fm_hp1, type = "prob", at = 0:50)))
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.001789 1.000000 1.000000 0.994000 1.000000 1.000000 
summary(rowSums(predict(fm_hp1, type = "prob", at = 0:100)))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9889  1.0000  1.0000  1.0000  1.0000  1.0000 
summary(rowSums(predict(fm_hp1, type = "prob", at = 0:200)))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1       1       1       1       1       1

正如在上面的评论中已经提出的那样，我怀疑这种拦截的变化在这里真的是一个很好的策略，但这是一个不同的辩论......

r语言 - pscl::p redict.hurdle 概率之和不等于 1

相关内容

最新更新

热门标签：