如何找到重新排列的numpy数组的索引？

说我有一个排序numpy的数组：如何找到重新排列的numpy数组的索引？

arr = np.array([0.0, 0.0], 
       [0.5, 0.0], 
       [1.0, 0.0], 
       [0.0, 0.5], 
       [0.5, 0.5], 
       [1.0, 0.5], 
       [0.0, 1.0], 
       [0.5, 1.0], 
       [1.0, 1.0])

，并假设我做一个不平凡的操作就可以了，这样我有一个新的数组是一样的旧的，但在其他订单：

arr2 = np.array([0.5, 0.0], 
       [0.0, 0.0], 
       [0.0, 0.5], 
       [1.0, 0.0], 
       [0.5, 0.5], 
       [1.0, 0.5], 
       [0.0, 1.0], 
       [1.0, 1.0], 
       [0.5, 1.0])

现在的问题是：你如何得到arr2的每个元素放置在arr的指数。换句话说，我想要一个同时使用数组和数组的方法，它返回的数组的长度与arr2相同，但是元素的索引为arr。例如，返回数组的第一个元素将是arr中arr2的第一个元素的索引。

where_things_are(arr2, arr) 
return : array([1, 0, 3, 2, 4, 5, 6, 8, 7])

像numpy这样的函数是否已经存在？

编辑：

我想：

np.array([np.where((arr == x).all(axis=1)) for x in arr2])

返回我想要的东西，但我的问题仍然成立：有没有这样做使用numpy的方法更有效的方法是什么？

EDIT2：

还应该工作，如果的arr2长度不一样的原始数组的长度（例如，如果我去掉了一些元件从它）。因此它不是找到并反转排列，而是找出元素的位置。

来源

2017-02-14 fgoudra

“反”不会是唯一的 - 通过增加索引轴来增加原始ARR，通过“非平凡操作”进行操作 – f5r5e5d

我使用的非平凡操作将保留唯一性yes，但保留由于操作不能维持订单，所以原始指数将无济于事。 – fgoudra

也对所添加的索引轴应用相同的重新排序操作，之后索引仍然标记了arr的变换元素的原始位置，易于在所添加的索引轴上进行排序以恢复原始顺序 – f5r5e5d

关键是反转排列。即使原始数组未被排序，下面的代码也能正常工作。如果它被排序，则可以使用find_map_sorted，这显然更快。

更新：适应OP不断变化的需求，我添加了一个处理丢失元素的分支。

import numpy as np 

def invperm(p): 
    q = np.empty_like(p) 
    q[p] = np.arange(len(p)) 
    return q 

def find_map(arr1, arr2): 
    o1 = np.argsort(arr1) 
    o2 = np.argsort(arr2) 
    return o2[invperm(o1)] 

def find_map_2d(arr1, arr2): 
    o1 = np.lexsort(arr1.T) 
    o2 = np.lexsort(arr2.T) 
    return o2[invperm(o1)] 

def find_map_sorted(arr1, arrs=None): 
    if arrs is None: 
     o1 = np.lexsort(arr1.T) 
     return invperm(o1) 
    # make unique-able 
    rdtype = np.rec.fromrecords(arrs[:1, ::-1]).dtype 
    recstack = np.r_[arrs[:,::-1], arr1[:,::-1]].view(rdtype).view(np.recarray) 
    uniq, inverse = np.unique(recstack, return_inverse=True) 
    return inverse[len(arrs):] 

x1 = np.random.permutation(100000) 
x2 = np.random.permutation(100000) 
print(np.all(x2[find_map(x1, x2)] == x1)) 

rows = np.random.random((100000, 8)) 
r1 = rows[x1, :] 
r2 = rows[x2, :] 
print(np.all(r2[find_map_2d(r1, r2)] == r1)) 

rs = r1[np.lexsort(r1.T), :] 
print(np.all(rs[find_map_sorted(r2), :] == r2)) 

# lose ten elements 
print(np.all(rs[find_map_sorted(r2[:-10], rs), :] == r2[:-10]))

来源

2017-02-14 17:40:31

不错，这个作品非常好，非常感谢你！ – fgoudra

如果你保证唯一性：

[ np.where(np.logical_and((arr2==x)[:,1], (arr2==x)[:,0])==True)[0][0] for x in arr]

注意，我转换你的阵列2D：例如

arr2 = np.array([[0.5, 0.0], 
[0.0, 0.0], 
[0.0, 0.5], 
[1.0, 0.0], 
[0.5, 0.5], 
[1.0, 0.5], 
[0.0, 1.0], 
[1.0, 1.0], 
[0.5, 1.0]])

来源

2017-02-14 18:08:41

下面是使用numpy的Broadcasting一种方式：

In [10]: ind = np.where(arr[:, None] == arr2[None, :])[1] 

In [11]: ind[np.where(np.diff(ind)==0)] 
Out[11]: array([1, 0, 3, 2, 4, 5, 6, 8, 7])

这背后的想法是，增加阵列的尺寸，使得它们的比较产生一个三维阵列，因为原来的子阵列具有长度2如果我们在比较结果的第二个轴上有两个连续的相等项目，他们将是两个项目相等的地方。对于这里更好的演示是比较不选择第二轴结果：

In [96]: np.where(arr[:, None] == arr2[None, :]) 
Out[96]: 
(array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 
     3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 
     7, 7, 8, 8, 8, 8, 8, 8]), 
array([0, 1, 1, 2, 3, 6, 0, 0, 1, 3, 4, 8, 0, 1, 3, 3, 5, 7, 1, 2, 2, 4, 5, 
     6, 0, 2, 4, 4, 5, 8, 2, 3, 4, 5, 5, 7, 1, 2, 6, 6, 7, 8, 0, 4, 6, 7, 
     8, 8, 3, 5, 6, 7, 7, 8]), 
array([1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 
     0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 
     0, 1, 0, 0, 1, 0, 1, 1]))

然后寻找那些我们只需要找到自己的差异为0的地方项目。

来源

2017-02-14 18:12:48 Kasramvd

该numpy_indexed包（免责声明：我是其作者）包含正确的这种类型的问题的有效功能; npi.indices是list.index的ndarray等价物。

import numpy_indexed as npi 
idx = npi.indices(arr, arr2)

这将返回一个索引列表，例如arr [idx] == arr2。如果arr2包含arr中不存在的元素，则会引发ValueError;但是你可以用'失踪'的kwarg来控制它。

要回答你的问题，这个功能是否包含在numpy中;是的，从这个意义上说，numpy是一个完整的图灵生态系统。但并非如此，如果您以高效，正确和一般的方式计算实现此目标所需的代码行数。

来源

2017-02-14 20:13:44

看起来像一个有趣的扩展。您是否介意 - 非常简要地描述您正在使用的算法？谢谢！ –

它与此处描述的其他基于arg排序的方法类似，性能也应该相似。额外的代码行主要是为了覆盖边缘情况并使其更加通用（比如在ndarrays上工作，在任意轴上使用索引，有趣的dtypes等等） –

如何找到重新排列的numpy数组的索引？

回答

相关问题