我是python和numpy的新手,所以如果这个问题是如此初级,请原谅我!我有一个负值数组(它是排序的):
>>>neg
[ -1.53507843e+02 -1.53200012e+02 -1.43161987e+02 ..., -6.37326136e-1 -3.97518490e-10 -3.73480691e-10]
>>>neg.shape
(12922508,)
我需要将这个数组添加到它的副本(但具有正值)以找到平均为零的分布的标准偏差。所以我做了如下操作:
>>>pos=-1*neg
>>>pos=pos[::-1] #Just to make it look symmetric for the display bellow!
>>>total=np.hstack((neg,pos))
>>>total
[-153.50784302 -153.20001221 -143.1619873 ..., 143.1619873 153.20001221 153.50784302]
>>>total.shape
(25845016,)
到目前为止一切都很好,但奇怪的是这个新数组的和不为零:
>>>numpy.sum(total)
11610.6
标准差也不接近我所期望的,但我想这个问题的根源是一样的:为什么总和不等于零?
当我将这个方法应用于一个小数组时;例如[-5,-3,-2],总和变为零。所以我猜问题在于数组的长度(超过2000万个元素)。有什么办法可以解决这个问题吗?
如果有人能在这方面帮助我,我将不胜感激。
如评论中所述,对数百万个等号数字求和会出现浮点四舍五入问题。一种可能的解决方法是在组合数组中混合正数和负数,以便在求和时任何中间结果始终大致保持在相同的数量级内:
neg = -100*numpy.random.rand(20e6)
pos = -neg
combined = numpy.zeros(len(neg)+len(pos))
combined[::2] = neg
combined[1::2] = pos
现在combined.sum()
应该非常接近于零。
也许这种方法也将有助于提高计算标准偏差的精度。