查找 Nan 填充数组的固定长度连续区域(无重叠)

我在这里发现了类似的问题，但没有一个问题适用于行定义的时间序列数据。我预计解决方案可能会通过 numpy 或 scipi 找到。因为我有这么多数据，所以我宁愿不使用熊猫数据帧。

我有许多19 通道 EEG 数据存储在 2d numpy 数组中。我已经检查了并将嘈杂的数据标记为nan，因此给定的运行可能如下所示：

C1  C2  C3  C4  C5  C6  C7  C8  C9  C10  C11  C12  C13  C14  C15  C16  C17  C18  C19
nan 7   5   4   nan nan 7   9   0   -3   nan  2    nan  nan  5    7    6    nan  8
0   6   7   3   5   9   2   2   4   6    8    7    5    6    4    -1   nan  -8   -9
6   8   7   7   0   3   2   4   5   1    3    7    3    8    4    6    9    0    0
...
nan nan nan 3   5   -1  0   nan nan nan  1    2    0    -1   -2   nan  nan  nan  nan

(不含频道标签(

每次运行的时间在 80,000 到 120,000 行(周期(之间。

对于这些运行中的每一个，我想创建一个连续的非重叠纪元的新堆栈，其中没有为nan人工设置任何值。像这样：

def generate_contigs(run, length):
contigs = np.ndarray(three-dimensional array of arbitrary depth x 19 x length)
count = 0
for row in run:
if nan not in row:
count+=1
if count==length:
stack array of last (length) rows on contigs ndarray
count = 0
else:
count = 0
return(contigs)

例如，假设我指定了长度 4(任意小(，并且我的函数找到了 9 个不重叠的重叠群，其中 4 个直行的值没有 nan。

我的输出应如下所示：

contigs = [
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array],
[19x4 array]
]

其中，输出堆栈中的每个元素类似于以下内容：

[4 6 5 8 3 5 4 1 8 8 7 5 6 4 3 5 6 6 5]  
[5 5 7 2 2 9 8 7 7 8 3 0 7 4 4 6 3 7 3]  
[4 4 6 7 9 0 9 9 8 8 7 7 6 6 5 5 4 4 3]  
[1 2 3 4 5 4 3 6 5 4 3 7 6 5 8 7 6 9 8]

该元素中包含的 4 行在原始运行的数据数组中连续找到。

我觉得我在这里非常接近，但我正在努力处理行操作并最小化迭代。如果您能找到一种方法将开始/停止行索引附加为元组以供以后分析，则加分。

您可以使用 numpy 索引选项滚动数组，并查看具有适当大小长度 x 19 的任何选择是否包含使用 numpy isnan 和 numpy any 的任何nan值。
如果没有nan值，则将所选内容添加到contigs列表中并随后移动，如果有nan则将索引移动 1 并检查新选择是否没有nan。
在途中很容易存储堆叠选择的第一行的索引。

def generate_contigs(run, length):
i = 0
contigs = []
startindexes = []
while i < run.shape[0]-length:
stk = run[i:(i+length),:]
if not np.any(np.isnan(stk)):
contigs.append(stk)
startindexes.append(i)
i += length
else:
i += 1
return contigs, startindexes

相关内容

最新更新

热门标签：