n-gram

1热度

1回答

有人能指出我正确的方向来解决以下问题吗？我从UMLS医学术语巨人名单，即一个样本可能是 Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibiotic VI Epilepsy con

1热度

1回答

从文本语料库一个给定的单词提取搭配词 - 的Python

我试图找出如何提取特定词的搭配词出来的文字。如：在统计上显着的搭配，例如：整个文本语料库中的“霍比特人”一词？我期待类似于单词列表（搭配）或者可能是元组（我的单词+它的搭配）的结果。我知道如何使双边和使用NLTK卦，以及如何选择只包含我感兴趣字二环或卦。我正在使用下面的代码（改编自this StackOverflow question）。 import nltk from nltk.collo

0热度

2回答

错误类型错误：“海峡”对象不是可调用的蟒蛇

我在我的代码，这个错误，我不知道如何固定 import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = [] for n in range(min, max): for ngram in ngrams(words, n): s.append('

2热度

3回答

的次两字已经看到在列表到一个点号

比方说，我有这样的文字： 'he is hdajs asdas da he is not asd as da s i am a da daas you am a' 我已经创建了所有从这个文本的二元语法： >>> bigrams_ [('he', 'is'), ('is', 'hdajs'), ('hdajs', 'asdas'), ('asdas', 'da'), ('da', 'he'),

2热度

1回答

R中的TermDocumentMatrix - 仅创建1克克

我刚刚在R中开始使用tm包，似乎无法解决问题。虽然我的分词器的功能似乎工作权： uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

0热度

1回答

Elasticsearch查询返回奇怪的排序（根据分数）导致

我使用Elasticsearch v5.3.2 我有以下映射： { "mappings":{ "info":{ "_all":{ "enabled": false }, "properties":{ "info":{ "properties":{ "email":{

-2热度

1回答

使用Ngram-Python创建多个句子的单词计数矩阵

假设我在csv文件中有多个句子（不是段落），比如句子A，B，C等。我想用N-gram（Unigrams或Bigrams）来计算每个句子中的单词矩阵。这样我就可以轻松地从我的矩阵中为每个句子得到一个计算的N-gram向量。我该怎么做？ PS：我已经尝试了几种方法，但是他们都是为一个句子或整个段落计算N-gram！

2热度

1回答

用法的词语单数为Keras Tokenizer

在Keras中使用单词的正克是否是真的？例如，句子列表在X_train数据框中包含“句子”列。我在接下来的方式标记生成器使用来自Keras： tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to

0热度

2回答

elasticsearch正克例如澄清

参照这里的例子 https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html 报价寻找“阿德勒”返回结果。对“Adler”的搜索成为adl，dle和ler三个词的查询：但为什么查询“Zdler”返回结果，即使zdl不是其中一个术语？ GET /my_index/my_type/_se

1热度

1回答

查找所有包含某个特定单词的n-gram

从文档中我想生成包含某个单词的所有n元组。例子： document: i am 50 years old, my son is 20 years old word: years n: 2 输出： [(50, years), (years, old), (20, years), (years, old)] 我知道我们可以生成所有可能的正克并过滤掉字的那些，但我不知道是否有更有效的方法来