我有一个n长的数组,我想将其调整到一定的长度,以保存比例。
我想要这样的功能:
def rezise_my_array(array, new_lentgh)
例如,输入将是长度为9的数组:
l = [1,2,3,4,5,6,7,8,9]
如果我将其重新汇总到长度5,则输出将为:
[1,3,5,7,9]
,反之亦然。
我需要在Pyspark上创建线性回归模型,因为所有功能都必须具有相同的长度。
您可以做这样的事情:
import numpy as np
def resize_proportional(arr, n):
return np.interp(np.linspace(0, 1, n), np.linspace(0, 1, len(arr)), arr)
arr = [1, 2, 3, 4, 5, 6, 7, 8, 9]
print(resize_proportional(arr, 5))
# [1. 3. 5. 7. 9.]
结果是浮点值,但是如果需要的话,您可以将其圆形或铸造。
以下是linspace
的一种方法,然后将其四舍五入以使我们需要选择新元素,然后简单地将输入阵列索引到我们所需的输出 -
def resize_down(a, newlen):
a = np.asarray(a)
return a[np.round(np.linspace(0,len(a)-1,newlen)).astype(int)]
样本运行 -
In [23]: l # larger one than given sample
Out[23]: array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
In [24]: resize_down(l, 2)
Out[24]: array([ 1, 11])
In [25]: resize_down(l, 3)
Out[25]: array([ 1, 6, 11])
In [26]: resize_down(l, 4)
Out[26]: array([ 1, 4, 8, 11])
In [27]: resize_down(l, 5)
Out[27]: array([ 1, 3, 6, 9, 11])
In [28]: resize_down(l, 6)
Out[28]: array([ 1, 3, 5, 7, 9, 11])
带有900000
元素的大阵列上的时间安排,并调整到500000
-
In [43]: np.random.seed(0)
...: l = np.random.randint(0,1000,(900000))
# @jdehesa's soln
In [44]: %timeit resize_proportional(l, 500000)
10 loops, best of 3: 22.2 ms per loop
In [45]: %timeit resize_down(l, 500000)
100 loops, best of 3: 5.58 ms per loop