n-gram

    0热度

    1回答

    我已经在Javascript中构建了一个ngram模型实现,它工作正常。不过,我期待改变我的数据结构,以便每次观察到新的单词/字符时都不必遍历所有历史记录。 在这里,我采取seedtext,并用它来与一个以建立的n-gram 2. var ngrams = {}; var order = 2; var seedtext = "adadwsdawdsadawdsadada

    1热度

    1回答

    我的弹性服务器中有文本索引。 我已经实现了NGRAM分词是这样的: "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } }, "tokenizer": {

    0热度

    1回答

    如何执行模糊查询并包含字符串? 比方说,我有以下文件: { ... "name":"william shakespeare" ... } 我希望得到以下查询文档: “威廉”(将返回所有威廉姆斯) “ Willeam“(与1相同) ”William Shake“(将仅返回包含”William Shake“的文档 ”Wiliam sa柯”(如3相同) ‘威廉·莎士比亚’/‘威廉·莎士比亚’/‘威廉sh

    0热度

    1回答

    我有1100序列2类。其中400来自一个class 1和700来自class 2。我使用了一个隐藏层自动编码器2神经元捕捉我的功能。我最初的功能是每个序列三克。所以,对于每个序列我都有6860三元组。结果,我的大部分输入向量都是稀疏向量。现在 ,如果我计算参数,这个网络,我有 6860 * 2 = 13720 paramters (1st layer) 2 * 6860 = 13720 para

    1热度

    1回答

    我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的(1)或不相关的(0)(这里:learning as it relates to work)。 数据是:标题&抽象(平均= 1300个字符),可以使用 任何方法或甚至组合,包括监督的机器学习和/或通过建立产生一些阈值列入特性,其中其他。 方法可以利用key terms that describe the conceptu

    1热度

    1回答

    我正在尝试使用python来帮助我破解Vigenère密码。我对编程相当陌生,但我设法制作了一个算法来分析一串文本中的二元语音频率。这是我到目前为止有: import nltk, string from nltk import bigrams Ciphertext = str(input("What is the text to be analysed?")) #Removes spac

    0热度

    1回答

    我是NLP的新手,有一个非常简单的问题,我希望问很多,但老实说在任何地方都找不到:在同一个分类器(如unigrams + bigrams)中可以使用多种类型的ngram? 我试过这样做,至少对于朴素贝叶斯来说,它给我的准确性比只有bigrams更高(虽然低于unigrams),但我不确定它是否是合法的做法。我所关心的一个问题是,如果这是一个适用的术语,即'运气'和'好运'都接近信息最丰富的特征列表

    0热度

    1回答

    我在英语语料库上训练了Ngram语言模型(unigram和bigram),我试图从不相交的语料库中计算句子的概率。 例如,训练库由3句: 1:我,我,萨姆 2:山姆,我,我 3:我,do,not,like,green,eggs,and,ham N = 14(语料库的长度) 对于单字组,我最终概率: PR( “I”)=#( “I”)/ N = 3/14,PR( “AM”)= 2/14,镨(”像 “)

    0热度

    1回答

    我必须通过使用n-gram匹配两篇研究论文的标题(仅适用于uni,bi和tri) 我的主管已经问过我相匹配的时候,我必须将更多的权重分配给bigram匹配的词条分数而不是单字符匹配术语得分和更多的权重卦匹配术语得分比双字符匹配术语得分。 例如,两个bigrams在标题匹配,然后得分= 2 和两个tigrams匹配,然后得分= 2 我必须寻找一些值,然后乘以它将增加trigram得分和减少bigra

    1热度

    3回答

    我使用bigrams和unigrams。 我的双字母组是一个元组的柜台,我对unigram是一个列表,其中 uni['some key']=count 我试图做follwing for b,countB in bigrams.most_common() key=b[0] # this is guaranteed to be a key for my unigrams u