如何快速处理2xN列表/ narray每个第二行值具有相同的第一行值?



我有一个像这样的列表或numpy数组:

[[3,   2,   1,   2,   3,   3  ],
[3.1, 2.2, 1.1, 2.1, 3.3, 3.2]]

基于相同的第一行值,它们应该按以下列表分组:

[1.1], [2.1,2.2], [3.1,3.2,3.3]

对于上面的每个列表,我想:

sum(abs(list - avg_list))

除了寻找所有2 nd-row值也有相同的1 st-row值一个接一个,然后处理它们,可以有一个并行处理的解决方案吗?

我做了如下尝试:

a = np.sort(a)
a_0 = np.unique(a[0,:])
result = []
for b in a_0:
a_1 = np.extract(a[0,:]==b,a[1,:])
result.append(np.sum(np.abs(a_1-np.mean(a_1))))

这是一个无循环的方法。我将data映射到使用idx填充的nan数组上。然后使用一些np.nan...函数以排除nan的方式执行数学。

In [102]: idx=np.array([3,   2,   1,   2,   3,   3  ])
In [103]: data=np.array([3.1, 2.2, 1.1, 2.1, 3.3, 3.2])
In [104]: res[np.arange(6),idx-1]=data
In [105]: res
Out[105]: 
array([[nan, nan, 3.1],
[nan, 2.2, nan],
[1.1, nan, nan],
[nan, 2.1, nan],
[nan, nan, 3.3],
[nan, nan, 3.2]])
In [106]: np.nanmean(res, axis=0)
Out[106]: array([1.1 , 2.15, 3.2 ])
In [107]: res-np.nanmean(res, axis=0)
Out[107]: 
array([[           nan,            nan, -1.0000000e-01],
[           nan,  5.0000000e-02,            nan],
[ 0.0000000e+00,            nan,            nan],
[           nan, -5.0000000e-02,            nan],
[           nan,            nan,  1.0000000e-01],
[           nan,            nan, -4.4408921e-16]])
In [108]: np.abs(res-np.nanmean(res, axis=0))
Out[108]: 
array([[          nan,           nan, 1.0000000e-01],
[          nan, 5.0000000e-02,           nan],
[0.0000000e+00,           nan,           nan],
[          nan, 5.0000000e-02,           nan],
[          nan,           nan, 1.0000000e-01],
[          nan,           nan, 4.4408921e-16]])
In [109]: np.nansum(np.abs(res-np.nanmean(res, axis=0)), axis=0)
Out[109]: array([0. , 0.1, 0.2])

映射到一个0填充的数组也可以工作,因为sum等不受过多0的困扰。

我不能保证速度。

缺少结果的代码!

In [110]: a = np.sort(np.array((idx,data)))
...: a_0 = np.unique(a[0,:])
...: 
...: result = []
...: for b in a_0:
...:   a_1 = np.extract(a[0,:]==b,a[1,:])
...:   result.append(np.sum(np.abs(a_1-np.mean(a_1))))
In [111]: result
Out[111]: [0.0, 0.10000000000000009, 0.20000000000000018]

最新更新