我有一个直方图,其中我计算函数在0.8和2.2范围内采用特定值的出现数量。
。我想获得一组值的累积分布函数。仅计算出每个特定值的事件总数是正确的。
例如,0.9的CDF将是所有发生在0.8到0.9?
的总和。正确吗?
谢谢
按条目归一化的总和将使您估计CDF,是的。它将与直方图一样准确,是PDF的准确表示。如果要在除垃圾箱端点以外的任何地方评估CDF,则包括一小部分计数是有意义的,因此,如果您有brak b_i and b_j,则在某个点b_i&lt中评估CDF;P<b_j您应该添加相关单元格的计数(p -b_i)/(b_j -b_i)的分数。本质上,这假设了细胞内的均匀密度。
您也可以从基础值中获得CDF的估计(基于您的问题,我不太确定您可以访问什么,无论其垃圾箱在直方图还是实际值中计数)。当心这样做将使您的CDF不连续(步骤)在每个数据点,因此请考虑您是否有足够的时间以及您使用的CDF的用途,以确定是否合适。
作为警告的最终注意事项,请注意评估在观察值范围之外的CDF的估计概率为零或一个(x< 0.8的零,一个用于x> 2.2)。您应该考虑该函数是否真正与该间隔有限,如果没有,则使用一些平滑来确保在观察值范围之外少量概率质量。