带有复合键的 numpy 数组;在两者中查找子集

我有两个 2D numpy 数组的形状：

(19133L, 12L)
(248L, 6L)

在每种情况下，前 3 个字段构成一个标识符。

我想减少较大的矩阵，以便它只包含具有第二个矩阵中也存在的标识符的行。所以形状应该是（248L，12L）。我该怎么做？

然后我想对它进行排序，以便数组按第一个值、第二个值和第三个值进行索引，以便（3 3 4）在（3 3 5）等之后。是否有多字段排序功能？

编辑：

我试过熊猫：

df1 = DataFrame(arr1.astype(str))
df2 = DataFrame(arr2.astype(str))
df1.set_index([0,1,2])
df2.set_index([0,1,2])
out = merge(df1,df2,how="inner") 
print(out.shape)

但这会导致（0,13）形状

使用熊猫。

pandas.set_index（）允许多个键。因此，将索引设置为前三列（使用 drop=False, inplace=True ），以避免不必要地更改或复制数据帧。

然后，合并（...how='inner'）以与数据帧相交。

一般来说，numpy 对于任意数据帧操作来说很快就会失去动力;你的默认应该是尝试熊猫。性能也更高。

相关内容

最新更新

热门标签：