sentence-similarity

    2热度

    1回答

    我有句子嵌入尺寸为2*1*300的句对的输出X.我想把这个输出分成两个形状为1*300的向量来计算它的绝对差值和乘积。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

    1热度

    1回答

    的文档相似性,我使用TF-IDF与余弦相似度计算描述 输入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    0热度

    1回答

    我正在进行潜在语义分析,我试图从2个文档中获得相似度。我在Python上运行我的潜在语义分析代码,当我运行它时,我得到: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

    1热度

    1回答

    我crereated上elasticsearch指数相同的波纹管: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

    0热度

    3回答

    我想从10,000篇文章中提取含有药物和基因名称的句子。 和我的代码是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

    0热度

    1回答

    我正在处理一个看起来像这样的文本文件; (这些字是瑞典语) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

    0热度

    1回答

    我想创建一个计算2个字符串之间相似度的应用程序。 字符串不长。 3句最长。 我做了一些研究,并且遇到了一些可能的解决方案路径。话的 首先一个使用袋:计算单词和比较2个制作载体(余弦相似性) 第二使用TF-IDF,并比较所产生的载体。 第三是使用word2vec和比较向量。 现在的问题。 表现明智的是word2vec表现更好,TF-IDF的短句子? 培训word2vec模型的最佳方法是什么?我应该使

    0热度

    1回答

    我已经下面就本link代码以找到输入的X和Y之间的相似性度量: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

    0热度

    1回答

    我有一个django后端(Postgre DB)。 假设一个给定的表,比如说A,有一个名为'message'的charfield。现在,我想要做的是找到A中与给定实例的“消息”字段具有相似“消息”的所有项目。相似性将基于某种算法。 TL; DR我想根据项目相似性找到项目。 的问题有三个部分: 我该怎么办呢?我可以实时做(慢)还是必须预先计算表A中所有项目之间的相似性(这可能会炸毁我的数据库) 如何

    0热度

    1回答

    我想重复使用名称相似度的公司(40M +)的巨大列表。我有一个500K的公司名称对被标记为相同/不相同(如I.B.M. =国际商用机器)。通过对名称对的向量差异进行逻辑回归建立的模型具有很好的f-分数(0.98),但推论(找到最相似的名字)太慢(每名称差不多2秒)。 是否可以使用名称相似性对(正值和负值)来训练doc2vec模型,从而导致类似名称具有相似的向量,以便我可以使用像Annoy这样的快速