哪个更准确，Python还是R

我正在尝试实现一个winsorization函数，但对它的确切定义感到困惑。显然，R包中的 winsorize 函数DescToolscipy.stats.mstatsPython库中的 winsorize 函数会产生不同的结果。我对此有点惊讶，因为这两个功能都非常受欢迎，但似乎没有人关心差异。这是一个简单的测试：

在R

library(DescTools)
data <- seq(0, 99)
Winsorize(data, probs=c(0.025, 1-0.025))

结果是[2.475, 2.475, 2.475, 3., 4., 5., 6., ..., 96., 96.525, 96.525, 96.525].

然而，在 Python 中，

import numpy as np
from scipy.stats.mstats import winsorize
data = np.arange(100).astype(np.float)
new_data = winsorize(data, [0.025, 0.025])
new_data

结果是[2., 2., 2., 3., 4., 5., 6., ..., 96., 97., 97. ,97.].

更糟糕的是，根据维基百科的例子，它应该被[3., 3., 3., 3., 4., 5., 6., ..., 96., 96., 96. ,96.]，因为第 2.5 个百分位数是 2.475，介于 2 和 3 之间，因此，小于 2.475 的所有内容都应该四舍五入为 3。

有人知道我应该实现哪个版本吗？

谢谢

分位数的定义方式似乎有所不同。R默认使用连续分位数函数，这在?quantile的"类型7"下的9种分位数列表中有描述。如果您在DescTools::Winsorize中使用type = 1，结果似乎与scipy.stats.mstats的 winsorize 相匹配(仅基于问题中显示的输出(。

library(DescTools)
data <- seq(0, 99)
Winsorize(data, probs=c(0.025, 1-0.025), type = 1)
#   [1]  2  2  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
#  [34] 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
#  [67] 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 97
# [100] 97

对于该示例，这 9 种方法中没有一个生成维基百科页面上显示的输出。虽然那里没有引用，所以我不会花太多心思。

相关内容

最新更新

热门标签：