2017-03-31 91 views
0

我计算向量的矩阵之间的余弦相似性,并且我得到的结果在一个稀疏矩阵是这样的:Python稀疏矩阵除了一个删除重复的索引?

  • (0,26)0.359171459261
  • (0,25)0.121145761751
  • (0,24)0.316922015914
  • (0,23)0.157622038039
  • (0,22)0.636466644041
  • (0,21)0.136216495731
  • (0,20)0.243164535496
  • (0,19)0.348272617805
  • (0,18)0.636466644041
  • (0,17)1.0

但也有重复,例如:

(0,24)0.316922015914和(24,0)0.316922015914

我想要做的就是通过指令去除它们(如果我有(0,24),那么我不需要(24,0),因为它是相同的)只剩下一个这个并删除第二个是矩阵中的所有向量。 目前,我有下面的代码来创建矩阵:

vectorized_words = sparse.csr_matrix(vectorize_words(nostopwords,glove_dict)) 
cos_similiarity = cosine_similarity(vectorized_words,dense_output=False) 

因此,要总结,我不希望删除所有重复,我想会留下使用Python的方式只是其中之一。

预先感谢您!

+0

'vectorize_words'和'cosine_similarity'从哪里来?在生成'cos_similarity'时删除'duplicates'可能比在之后从矩阵中删除它们更容易。'稀疏'矩阵不是为单个元素操作而设计的。 – hpaulj

+0

'scipy.spatial.distance.squareform'转换为/从一个紧凑的upper_triangle形式消除重复。我不知道是否有一个适用于稀疏矩阵的版本。 – hpaulj

+0

@hpaulj cosine_similarity来自sklearn,矢量化单词是我的函数来获得每个单词矢量 – nitheism

回答

1

我认为这是最容易获得coo格式矩阵的上三角:

首先做一个小的对称矩阵:

In [876]: A = sparse.random(5,5,.3,'csr') 
In [877]: A = A+A.T 
In [878]: A 
Out[878]: 
<5x5 sparse matrix of type '<class 'numpy.float64'>' 
    with 11 stored elements in Compressed Sparse Row format> 
In [879]: A.A 
Out[879]: 
array([[ 0.  , 0.  , 0.81388978, 0.  , 0.  ], 
     [ 0.  , 0.  , 0.73944395, 0.20736975, 0.98968617], 
     [ 0.81388978, 0.73944395, 0.  , 0.  , 0.  ], 
     [ 0.  , 0.20736975, 0.  , 0.05581152, 0.04448881], 
     [ 0.  , 0.98968617, 0.  , 0.04448881, 0.  ]]) 

转换为coo,并设置较低的三角形数据值设为0

In [880]: Ao = A.tocoo() 
In [881]: mask = (Ao.row>Ao.col) 
In [882]: mask 
Out[882]: 
array([False, False, False, False, True, True, True, False, False, 
     True, True], dtype=bool) 
In [883]: Ao.data[mask]=0 

转换回0,并使用eliminate_zeros修剪矩阵。

In [890]: A1 = Ao.tocsr() 
In [891]: A1 
Out[891]: 
<5x5 sparse matrix of type '<class 'numpy.float64'>' 
    with 11 stored elements in Compressed Sparse Row format> 
In [892]: A1.eliminate_zeros() 
In [893]: A1 
Out[893]: 
<5x5 sparse matrix of type '<class 'numpy.float64'>' 
    with 6 stored elements in Compressed Sparse Row format> 
In [894]: A1.A 
Out[894]: 
array([[ 0.  , 0.  , 0.81388978, 0.  , 0.  ], 
     [ 0.  , 0.  , 0.73944395, 0.20736975, 0.98968617], 
     [ 0.  , 0.  , 0.  , 0.  , 0.  ], 
     [ 0.  , 0.  , 0.  , 0.05581152, 0.04448881], 
     [ 0.  , 0.  , 0.  , 0.  , 0.  ]]) 

两者coocsr格式具有就地eliminate_zeros方法。


def eliminate_zeros(self): 
    """Remove zero entries from the matrix 

    This is an *in place* operation 
    """ 
    mask = self.data != 0 
    self.data = self.data[mask] 
    self.row = self.row[mask] 
    self.col = self.col[mask] 

而不是使用Ao.data[mask]=0,可以将这个代码作为消除只是lower_triangle值的模型。

+0

不会“消除_zeros”删除所有的零?我的意思是我可能在某个地方有一个来自原始矩阵的值,它也会将其删除? – nitheism

+0

是的。我将添加'coo''demo_zeros'的代码,以防你想直接使用'mask'工作。 – hpaulj

+0

非常感谢 – nitheism