n-gram

    1热度

    1回答

    有人能指出我正确的方向来解决以下问题吗? 我从UMLS医学术语巨人名单,即一个样本可能是 Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibiotic VI Epilepsy con

    1热度

    1回答

    我试图找出如何提取特定词的搭配词出来的文字。如:在统计上显着的搭配,例如:整个文本语料库中的“霍比特人”一词?我期待类似于单词列表(搭配)或者可能是元组(我的单词+它的搭配)的结果。 我知道如何使双边和使用NLTK卦,以及如何选择只包含我感兴趣字二环或卦。我正在使用下面的代码(改编自this StackOverflow question)。 import nltk from nltk.collo

    0热度

    2回答

    我在我的代码,这个错误,我不知道如何固定 import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = [] for n in range(min, max): for ngram in ngrams(words, n): s.append('

    2热度

    3回答

    比方说,我有这样的文字: 'he is hdajs asdas da he is not asd as da s i am a da daas you am a' 我已经创建了所有从这个文本的二元语法: >>> bigrams_ [('he', 'is'), ('is', 'hdajs'), ('hdajs', 'asdas'), ('asdas', 'da'), ('da', 'he'),

    2热度

    1回答

    我刚刚在R中开始使用tm包,似乎无法解决问题。 虽然我的分词器的功能似乎工作权: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    0热度

    1回答

    我使用Elasticsearch v5.3.2 我有以下映射: { "mappings":{ "info":{ "_all":{ "enabled": false }, "properties":{ "info":{ "properties":{ "email":{

    -2热度

    1回答

    假设我在csv文件中有多个句子(不是段落),比如句子A,B,C等。我想用N-gram(Unigrams或Bigrams)来计算每个句子中的单词矩阵。这样我就可以轻松地从我的矩阵中为每个句子得到一个计算的N-gram向量。我该怎么做? PS:我已经尝试了几种方法,但是他们都是为一个句子或整个段落计算N-gram!

    2热度

    1回答

    在Keras中使用单词的正克是否是真的? 例如,句子列表在X_train数据框中包含“句子”列。 我在接下来的方式标记生成器使用来自Keras: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to

    0热度

    2回答

    参照这里的例子 https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html 报价寻找“阿德勒”返回结果。 对“Adler”的搜索成为adl,dle和ler三个词的查询: 但为什么查询“Zdler”返回结果,即使zdl不是其中一个术语? GET /my_index/my_type/_se

    1热度

    1回答

    从文档中我想生成包含某个单词的所有n元组。 例子: document: i am 50 years old, my son is 20 years old word: years n: 2 输出: [(50, years), (years, old), (20, years), (years, old)] 我知道我们可以生成所有可能的正克并过滤掉字的那些,但我不知道是否有更有效的方法来