我有两个列表,我需要找到与唯一对关联的索引(我可以找到的所有SO帖子只对对自己感兴趣)。我一直在尝试使用numpy.unique
这样做,但我很奇怪。我压缩列表创建一个元组列表,然后set()
和np.unique()
成功削减到唯一的对,但我想要的是指数到原始列表。 unique
的文档表明它将返回那些如果return_inverse=True
。但是,如果设定了,我会得到不同程度的“扁平化”。Numpy.unique行为(展平不一致?)
在这个例子中,我使用字符串只是为了避免任何比较问题,实际上它们是浮动的。
import numpy as np
l_1 = ['12.34', '12.34', '12.34', '12.34', '56.78', '56.78', '90.12', '90.12']
l_2 = ['-1.23', '-1.23', '-4.56', '-4.56', '-6.78', '-6.78', '-9.01', '-9.01']
ll = zip(l_1, l_2)
ull1 = np.unique(ll)
ull2, inds = np.unique(ll, return_inverse=True)
在第一种情况下,对在输出中保留为第二维。在第二种情况下,即使元组变平,也会破坏这些对。
In [1]: ull1
Out[1]:
array([['-9.01', '90.12'],
['-1.23', '12.34'],
['-6.78', '56.78'],
['-4.56', '12.34']],
dtype='|S5')
In [2]: ull2
Out[2]:
array(['-1.23', '-4.56', '-6.78', '-9.01', '12.34', '56.78', '90.12'],
dtype='|S5')
这样做的目的是?有什么办法可以让unique
给我指数,我想在第一种情况下(这将是像[[6,7], [0,1], [4,5], [2,3]]
)?我无法从文件中看出前者或后者的行为是否是奇怪的。
我需要索引来操作类似列表中的其他值。如果我有权访问熊猫,我会使用它,但是我必须运行的计算机只有非常旧的版本,并且没有熊猫。然而,在numpy 1.8.1中仍然会发生这种情况。我知道我可以做以下事情:
sll = list(set(ll))
for i in range(len(sll)):
inds = np.where([val == sll[i] for val in ll])
# I do my operations here using inds
但我希望可能有更优雅的东西?
@moarningsun Ahah,我发现了这个问题,但是我没有在那个答案中看到'idx',直到你专门调用它。我觉得我被这个答案的长度和数量弄糊涂了...... – Ajean 2014-09-05 19:46:11
对,如果我链接到特定的答案,它会更好:http://stackoverflow.com/a/16973510/2379410 – 2014-09-05 19:51:32