我正在Python中创建一个Naive Bayes分类器,它将能够根据一天的一些天气数据猜测它是哪个月。
目前,平均值和标准差用于对月份进行分类,但我认为添加偏度和峰度可能有助于提高准确性。
我目前正在使用scipy.stats.norm.cdf来计算机会,但在Python中似乎找不到任何将偏度和峰度考虑在内的cdf函数。
我觉得我可能没有正确理解偏度和峰度。偏斜和峰度对cdf函数有影响,因此我希望将它们作为参数给出。
我对偏度、峰度和cdf函数的理解是否有根本性的错误?如果没有,那么我在哪里可以找到考虑了所有这些参数的Python中cdf函数的实现?
正态分布,您使用(scipy.stats.norm),它通常用于在朴素贝叶斯中建模一维条件分布,它只由两个参数明确定义-它的mean
和std
。指定偏度/峰度没有意义,因为它们对于你的分布是恒定的(尤其是峰度是3)。
你想的可能是皮尔逊分布,它用于拟合更多的矩(均值、标准差、偏度和峰度)。
http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html