n-gram

0热度

1回答

我已经在Javascript中构建了一个ngram模型实现，它工作正常。不过，我期待改变我的数据结构，以便每次观察到新的单词/字符时都不必遍历所有历史记录。在这里，我采取seedtext，并用它来与一个以建立的n-gram 2. var ngrams = {}; var order = 2; var seedtext = "adadwsdawdsadawdsadada

1热度

1回答

在文本中使用ngram搜索搜索模式的最小字符和以上

我的弹性服务器中有文本索引。我已经实现了NGRAM分词是这样的： "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } }, "tokenizer": {

0热度

1回答

Fuzzy contains query with elasticSearch

如何执行模糊查询并包含字符串？比方说，我有以下文件： { ... "name":"william shakespeare" ... } 我希望得到以下查询文档： “威廉”（将返回所有威廉姆斯） “ Willeam“（与1相同） ”William Shake“（将仅返回包含”William Shake“的文档 ”Wiliam sa柯”（如3相同） ‘威廉·莎士比亚’/‘威廉·莎士比亚’/‘威廉sh

0热度

1回答

Autoencoder和神经网络过度拟合的参数号？

我有1100序列2类。其中400来自一个class 1和700来自class 2。我使用了一个隐藏层自动编码器2神经元捕捉我的功能。我最初的功能是每个序列三克。所以，对于每个序列我都有6860三元组。结果，我的大部分输入向量都是稀疏向量。现在，如果我计算参数，这个网络，我有 6860 * 2 = 13720 paramters (1st layer) 2 * 6860 = 13720 para

1热度

1回答

简单的二进制文本分类

我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的（1）或不相关的（0）（这里：learning as it relates to work）。数据是：标题&抽象（平均= 1300个字符），可以使用任何方法或甚至组合，包括监督的机器学习和/或通过建立产生一些阈值列入特性，其中其他。方法可以利用key terms that describe the conceptu

1热度

1回答

使用python分析一串文本中的bigrams

我正在尝试使用python来帮助我破解Vigenère密码。我对编程相当陌生，但我设法制作了一个算法来分析一串文本中的二元语音频率。这是我到目前为止有： import nltk, string from nltk import bigrams Ciphertext = str(input("What is the text to be analysed?")) #Removes spac

0热度

1回答

可以在同一个分类器中使用多个ngram吗？

我是NLP的新手，有一个非常简单的问题，我希望问很多，但老实说在任何地方都找不到：在同一个分类器（如unigrams + bigrams）中可以使用多种类型的ngram？我试过这样做，至少对于朴素贝叶斯来说，它给我的准确性比只有bigrams更高（虽然低于unigrams），但我不确定它是否是合法的做法。我所关心的一个问题是，如果这是一个适用的术语，即'运气'和'好运'都接近信息最丰富的特征列表

0热度

1回答

用词汇量计算句子的计算概率

我在英语语料库上训练了Ngram语言模型（unigram和bigram），我试图从不相交的语料库中计算句子的概率。例如，训练库由3句： 1：我，我，萨姆 2：山姆，我，我 3：我，do，not，like，green，eggs，and，ham N = 14（语料库的长度）对于单字组，我最终概率： PR（ “I”）=＃（ “I”）/ N = 3/14，PR（ “AM”）= 2/14，镨（”像 “）

0热度

1回答

如何将更多的权重分配给bigram和trigram？

我必须通过使用n-gram匹配两篇研究论文的标题（仅适用于uni，bi和tri）我的主管已经问过我相匹配的时候，我必须将更多的权重分配给bigram匹配的词条分数而不是单字符匹配术语得分和更多的权重卦匹配术语得分比双字符匹配术语得分。例如，两个bigrams在标题匹配，然后得分= 2 和两个tigrams匹配，然后得分= 2 我必须寻找一些值，然后乘以它将增加trigram得分和减少bigra

1热度

3回答

无法访问Python中列表中的元素

我使用bigrams和unigrams。我的双字母组是一个元组的柜台，我对unigram是一个列表，其中 uni['some key']=count 我试图做follwing for b,countB in bigrams.most_common() key=b[0] # this is guaranteed to be a key for my unigrams u