拟合早期数据值的离散(负二项式)分布



我在拟合离散分布函数时遇到了一些困难(我特别使用负二项式分布)。这是我的设置:我有一个传入项目的来源,每个项目的寿命都未知。每天,有些物品都会过期(第一天大部分,第二天更多,等等)。对于现有的进货来源(来源超过180天),我已经设法用负二项分布将新物品的寿命建模为可接受的误差(使用MLE-最大似然估计)。

我的问题开始于传入项目的新来源。我想估计他们的物品在短时间后(比如5-7天后)的寿命分布。当我尝试应用MLE时,我得到的均值明显较低(即3而不是30)。我认为这是因为MLE无法理解最后一天(第7天)的质量实际上是1-CDF(6)(前6天的累积分布函数),并且实际上也包含生活物品。

是否有一种好的方法可以仅基于早期数据值和其他值的质量之和来拟合离散分布?我可以为它写一些优化函数,只对前6天进行加权,但我觉得它会给我次优的性能。

我对理论解释没意见,但如果你能处理特定的函数或库,我可以在Matlab、R、Python和C#中工作。

您遇到的问题称为"审查"数据。从本质上讲,你在某个特定的时间点上只知道某些项目的生存期大于(现在减去开始时间)。你对如何修正似然函数的猜测指向了正确的方向。我认为在关于生存分析的文本中通常会考虑审查数据。维基百科的文章[1]对被审查的数据有一些简短的评论,这可能也会有所帮助。

R中有一个名为"生存"的生存分析包。可能还有其他R包。不知道其他系统的软件包。

[1]http://en.wikipedia.org/wiki/Survival_analysis

最新更新