我对编码相当陌生,我正在从二进制文件中读取信号。数据被定向为两个4字节的浮点数,它们构成一个复数,这对于最多1500个条目重复。
我一直在使用for循环来提取数据并将复数附加到数组
for x in range(dimX):
for y in range(dimY):
complexlist=[]
#2 floats, each 4 bytes, is one complex number
trace=stream.readBytes(8*dimZ)
#Unpack as list of floats
floatlist=struct.unpack("f"*2*dimZ,trace)
for i in range(0,len(floatlist)-1,2):
complexlist.append(complex(floatlist[i],floatlist[i+1]))
data[x][y]=np.array(complexlist)
其中dimX可能以千为单位,DimY通常为<30, dimZ为<1500
但是在大文件中这是非常慢的
是否有一种方法可以读取整个跟踪的缓冲区并直接解包为复数数组?
是的,有。您可以跳过python的复杂类型的步骤,因为在内部,numpy将n
个复数数组表示为2n
个浮点数组。
下面是一个来自REPL的简单示例,说明它是如何工作的:
>>> import numpy as np
>>> a = np.array([1.,2.,3.,4.])
>>> a
array([ 1., 2., 3., 4.])
>>> a.dtype
dtype('float64')
>>> a.dtype = complex
>>> a
array([ 1.+2.j, 3.+4.j])
>>>
请注意,如果初始数组有dtype
而不是float
,则此操作不起作用。
>>> a = np.array([1,2,3,4])
>>> a
array([1, 2, 3, 4])
>>> a.dtype
dtype('int64')
>>> a.dtype = complex
>>> a
array([ 4.94065646e-324 +9.88131292e-324j,
1.48219694e-323 +1.97626258e-323j])
>>>
在你的情况下。你想要的dtype是np.dtype('complex64')
,因为你的每个复数都是64位(2*4*8)。
for x in range(dimX):
for y in range(dimY):
#2 floats, each 4 bytes, is one complex number
trace=stream.readBytes(8*dimZ)
a = np.frombuffer(trace,dtype=np.dtype('complex64'))
data[x][y] = a
那样你的速度会快很多。下面是一个来自REPL的关于numpy.frombuffer()
如何工作的示例
>>> binary_string = struct.pack('2f', 1,2)
>>> binary_string
'x00x00x80?x00x00x00@'
>>> numpy.frombuffer(binary_string, dtype=np.dtype('complex64'))
array([ 1.+2.j], dtype=complex64)
>>>
编辑:我不知道numpy.frombuffer()
的存在。因此,我创建了一个字符数组,然后更改dtype以获得相同的效果。谢谢你@wim
编辑2:至于进一步的速度优化,您可能会从使用列表推导而不是显式的for循环中获得性能提升。
for x in range(dimX):
data[x] = [np.frombuffer(stream.readBytes(8*dimZ), dtype=np.dtype('complex64')) for y in range(dimY)]
再上一级:
data = [[np.frombuffer(stream.readBytes(8*dimZ), dtype=np.dtype('complex64'))
for y in range(dimY)]
for x in range(dimX)]