更改 Numpy 对象中的每个元素



我有一个带有随机 N*M 元素的 Numpy 对象,我还有两个数字 A 和 B。

现在我想访问这个 N*M 数组中的每个元素并进行更改,即,如果元素> 0,则将此元素替换为 A(即元素 <-A),如果该元素<0,请将此元素替换为 B(即元素 <- B)。

我知道有一种天真的方法可以实现这种方法,那就是使用 for 循环访问每个元素,但它非常慢。

我们可以使用更多花哨的代码来实现这一点吗?

布尔掩码赋值将就地更改值:

In [493]: arr = np.random.randint(-10,10,(5,7))
In [494]: arr
Out[494]: 
array([[ -5,  -6,  -7,  -1,  -8,  -8, -10],
[ -9,   1,  -3,  -9,   3,   8,  -1],
[  6,  -7,   4,   0,  -4,   4,  -2],
[ -3, -10,  -2,   7,  -4,   2,   2],
[ -5,   5,  -1,  -7,   7,   5,  -7]])
In [495]: arr[arr>0] = 100
In [496]: arr[arr<0] = -50
In [497]: arr
Out[497]: 
array([[-50, -50, -50, -50, -50, -50, -50],
[-50, 100, -50, -50, 100, 100, -50],
[100, -50, 100,   0, -50, 100, -50],
[-50, -50, -50, 100, -50, 100, 100],
[-50, 100, -50, -50, 100, 100, -50]])

我刚刚给出了类似的答案

Python numpy:在不使用循环的情况下迭代不同的条件

IIUC:

narr = np.random.randint(-100,100,(10,5))
array([[ 70, -20,  96,  73, -94],
[ 42,  35, -55,  56,  54],
[ 97, -16,  24,  32,  78],
[ 49,  49, -11, -82,  82],
[-10,  59, -42, -68, -70],
[ 95,  23,  22,  58, -38],
[ -2, -64,  27, -33, -95],
[ 98,  42,   8, -83,  85],
[ 23,  51, -99, -82,  -7],
[-28, -11, -44,  95,  93]])
A = 1000
B = -999

使用np.where

np.where(narr > 0, A, np.where(narr < 0, B , narr))

输出:

array([[1000, -999, 1000, 1000, -999],
[1000, 1000, -999, 1000, 1000],
[1000, -999, 1000, 1000, 1000],
[1000, 1000, -999, -999, 1000],
[-999, 1000, -999, -999, -999],
[1000, 1000, 1000, 1000, -999],
[-999, -999, 1000, -999, -999],
[1000, 1000, 1000, -999, 1000],
[1000, 1000, -999, -999, -999],
[-999, -999, -999, 1000, 1000]])

因为你提到你对计算速度感兴趣,所以我对你的问题做了几种不同方法的速度比较。

test.py:

import numpy as np
A = 100
B = 50
def createArray():
array = np.random.randint(-100,100,(500,500))
return array
def replace(x):
return A if x > 0 else B
def replace_ForLoop():
"""Simple for-loop."""
array = createArray()
for i in range(array.shape[0]):
for j in range(array.shape[1]):
array[i][j] = replace(array[i][j])
def replace_nditer():
"""Use numpy.nditer to iterate over values."""
array = createArray()
for elem in np.nditer(array, op_flags=['readwrite']):
elem[...] = replace(elem)
def replace_masks():
"""Use boolean masks."""
array = createArray()
array[array>0] = A
array[array<0] = B
def replace_vectorize():
"""Use numpy.vectorize"""
array = createArray()
vectorfunc = np.vectorize(replace)
array = vectorfunc(array)
def replace_where():
"""Use numpy.where"""
array = createArray()
array = np.where(array > 0, A, np.where(array < 0, B , array))

注意:使用嵌套 for 循环、np.nditer和布尔掩码的变体可以就地工作,最后两个则不能。

时序比较:

> python -mtimeit -s'import test' 'test.replace_ForLoop()'                     
10 loops, best of 3: 185 msec per loop
> python -mtimeit -s'import test' 'test.replace_nditer()' 
10 loops, best of 3: 294 msec per loop
> python -mtimeit -s'import test' 'test.replace_masks()' 
100 loops, best of 3: 5.8 msec per loop
> python -mtimeit -s'import test' 'test.replace_vectorize()'
10 loops, best of 3: 55.3 msec per loop
> python -mtimeit -s'import test' 'test.replace_where()'    
100 loops, best of 3: 5.42 msec per loop

使用循环确实很慢。numpy.nditer甚至更慢,这让我感到惊讶,因为文档称其为迭代数组的高效多维迭代器对象。numpy.vectorize本质上是一个 for 循环,但仍然设法比朴素实现快三倍。 根据hpaulj的回答,Scott Boston提出的np.where变体比使用布尔掩码略快。但是,它确实需要更多的内存,因为它不会就地修改。