sentence-similarity

2热度

1回答

Keras在分割图层输出时抛出`'张量'对象没有属性'_keras_shape'

我有句子嵌入尺寸为2*1*300的句对的输出X.我想把这个输出分成两个形状为1*300的向量来计算它的绝对差值和乘积。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

1热度

1回答

TF-IDF使用余弦相似度几乎类似的句子

的文档相似性，我使用TF-IDF与余弦相似度计算描述输入字符串： 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

0热度

1回答

如何获得LSA的相似度

我正在进行潜在语义分析，我试图从2个文档中获得相似度。我在Python上运行我的潜在语义分析代码，当我运行它时，我得到： Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

1热度

1回答

elasticsearch NGRAM和PostgreSQL卦搜索结果不匹配

我crereated上elasticsearch指数相同的波纹管： "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

0热度

3回答

我想从10,000篇文章中提取含有药物和基因名称的句子

我想从10,000篇文章中提取含有药物和基因名称的句子。和我的代码是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

0热度

1回答

如何让每个句子成为一个嵌套列表？

我正在处理一个看起来像这样的文本文件; （这些字是瑞典语） ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

0热度

1回答

字符串相似TF-IDF字袋或Word2vec

我想创建一个计算2个字符串之间相似度的应用程序。字符串不长。 3句最长。我做了一些研究，并且遇到了一些可能的解决方案路径。话的首先一个使用袋：计算单词和比较2个制作载体（余弦相似性）第二使用TF-IDF，并比较所产生的载体。第三是使用word2vec和比较向量。现在的问题。表现明智的是word2vec表现更好，TF-IDF的短句子？培训word2vec模型的最佳方法是什么？我应该使

0热度

1回答

如何使用简单匹配系数在两个句子之间找到相似性度量？

我已经下面就本link代码以找到输入的X和Y之间的相似性度量： def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

0热度

1回答

Django：Filter类似于给定的项目

我有一个django后端（Postgre DB）。假设一个给定的表，比如说A，有一个名为'message'的charfield。现在，我想要做的是找到A中与给定实例的“消息”字段具有相似“消息”的所有项目。相似性将基于某种算法。 TL; DR我想根据项目相似性找到项目。的问题有三个部分：我该怎么办呢？我可以实时做（慢）还是必须预先计算表A中所有项目之间的相似性（这可能会炸毁我的数据库）如何

0热度

1回答

培训doc2vec公司名称相似度

我想重复使用名称相似度的公司（40M +）的巨大列表。我有一个500K的公司名称对被标记为相同/不相同（如I.B.M. =国际商用机器）。通过对名称对的向量差异进行逻辑回归建立的模型具有很好的f-分数（0.98），但推论（找到最相似的名字）太慢（每名称差不多2秒）。是否可以使用名称相似性对（正值和负值）来训练doc2vec模型，从而导致类似名称具有相似的向量，以便我可以使用像Annoy这样的快速