locality-sensitive-hash

    2热度

    1回答

    我有一组字符串以及它们的坐标和矩形边界int两个相似的页面。这些字符串有三种可能的方式。 (i)字符串可以移动到页面上的新位置。 (ii)一个字符串在相同的位置,但它被修改。说(abc - > abd或ABC) (iii)(i)和(ii)的组合。 (iv)可能缺少一个字符串。 我试图使用局部敏感哈希,但无法找到一个很好的哈希函数。任何人都可以请建议我一个很好的散列函数或其他算法来解决这个问题。在此

    1热度

    1回答

    我想找出一个局部敏感散列算法,以便将我的空间数据拆分为多个桶(Reducer任务)。空间数据实际上是轨迹,所以从我对LSH的低估中,轨迹将被表示为一组2d点。 感谢, 亚当

    1热度

    1回答

    如何使用模糊匹配大熊猫中检测到重复行(有效) 如何找到一列与所有其他的人的副本没有一个巨大的转换的循环row_i toString(),然后将其与所有其他的?

    1热度

    1回答

    援引E2LSH手册(这并不是说是关于这个特定库重要的是,这句话应该是一般 NN问题真): Ë2LSH也可以用来解决近邻问题,其中, 在给定查询q的情况下,数据结构是要求报告中的点P最接近于q的 。这可以通过为R = R1,R2,...创建多个R近邻 邻居数据结构来完成。 。 。 Rt,其中Rt应该为 大于从任何查询点到其最近邻居的最大距离 。最近的邻居可以通过 查询数据结构在radiae, 停止的

    1热度

    1回答

    我期待在python 3中使用欧几里得距离的LSH的高效执行。 有“蟒蛇”LSHForest实现,但它使用余弦距离。另外,即使使用这种实现方式,我也没有找到一种方法来查看每个篮子的内容,例如,如果使用LSH进行聚类 - 它只返回特定半径内的一定数量的近似邻居。但是如果我想看到所有的邻居,我不知道它是如何完成的(我不想使用任意半径的搜索,而且我真的不确定这个大半径或无限半径的意义是什么,实现)。 将

    2热度

    2回答

    我已经阅读this question,但不幸的是它没有帮助。 什么我不明白的是我们做当我们了解到这桶分配给我们的高维空间查询向量q:假设使用我们的局部性敏感家庭功能h_1,h_2,...,h_n我们已经翻译q到低维集(n维度)哈希码c。 然后c是分配给q的桶的索引,并且在哪里(希望)也被分配了它的最近邻居,假设有100个向量。 现在,我们为了找到做q的NN是计算q和只有这100个向量之间的距离,是

    2热度

    1回答

    我读了this关于找到三维点的最近邻居的问题。八叉树是这种情况下的解决方案。 kd-Tree是小空间(通常小于50尺寸)的解决方案。 对于高维(向量为几百个维和几百万个点)LSH是解决AKNN(Aproxximate K-NN)问题的流行解决方案,如this question中指出的那样。 然而,LSH对K-NN解决方案很流行,其中K >> 1。例如,对于基于内容的图像检索(CBIR)应用,LSH

    8热度

    1回答

    目前我正在研究如何使用局部敏感哈希来找到最近的邻居。然而,当我正在阅读论文并在网上搜索时,我发现了两种算法: 1-使用L个随机数LSH函数的哈希表,从而增加两个文档类似的机会得到相同的签名。例如,如果两份文件的相似度为80%,则有80%的机会从一个LSH函数中获得相同的签名。但是,如果我们使用多个LSH函数,那么从一个LSH函数获得文档的相同签名的可能性就更大。这种方法在维基百科的解释,我希望我的

    1热度

    1回答

    我正在使用LSH作为数据库记录,并且我正在创建一个索引(不是数据库索引,简单的哈希映射),其中相似的记录被阻塞到同一个存储桶中。该数据库可能包含数百万条记录。我的问题与我在下面发布的设计有关。 第一我会利用现有的通过执行LSH数据库的索引。但是,当插入到数据库中的新记录时,我必须将该记录也索引到索引中。我怎样才能用LSH做到这一点? LSH可以将该记录分配给具有相似记录的存储桶吗? LSH是否支持

    1热度

    1回答

    我使用caffe,深度神经网络library,为图像检索生成图像特征。我正在使用的特定网络生成一个4096维度特征。 我正在使用LSHash从这些特性生成哈希桶。当我对所有可用特征进行比较时,通过欧几里德距离对图像进行排序,我发现这些特征很好地代表了图像相似性。然而,当我使用LSHash时,我发现类似的功能很少落入同一个桶中。 源特征是否与LSH一起使用过大?在尝试对图像特征进行哈希之前,是否还有