nltk-trainer

    2热度

    2回答

    数据集:包含的属性/土地特征的无监督分类 df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,top),

    0热度

    1回答

    我是新的在nltk图书馆,我试图教我的分类器一些标签与我自己的语料库。 为此,我有IOB标签像这样的文件:由 self.classifier = nltk.MaxentClassifier.train(train_set, algorithm='megam', trace=0) How O do B-MYTag you I-MYTag know O , O where B-MYTag

    0热度

    3回答

    我有一个自定义语料库创建数据,我需要做一些分类。我拥有与movies_reviews语料库包含的相同格式的数据集。根据nltk文档,我使用以下代码访问movie_reviews语料库。无论如何,都可以将任何自定义语料库添加到nltk_data/corpora目录中,并以访问现有语料库的相同方式访问该语料库。 import nltk from nltk.corpus import movi

    0热度

    1回答

    我试图训练分类器的推文。然而,问题在于它说分类器具有100%的准确性,并且最丰富的特征列表不显示任何内容。有谁知道我做错了什么?我相信我对分类器的所有输入都是正确的,所以我不知道它出错的地方。 这是我使用的数据集: http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 这是我的代码: impor

    4热度

    1回答

    我目前正在使用python NLTK进行自然语言处理。我想生成一些输入表示的美丽图形。我能做些什么来得到这样的东西?

    0热度

    1回答

    好吧,让我训练了一个NaiveBayes电影评论分类器...但是,当我运行它反对负面评论(从一个网站,我复制并粘贴到一个txt文件)我是'pos'...我做错了什么?这是下面的代码: import nltk, random from nltk.corpus import movie_reviews documents = [(list(movie_reviews.words(fileid)),

    0热度

    1回答

    我最近使用首发NLTK看着数据提取。虽然有几个例子,用于检测“真实”的名称,位置等技术。我还没有找到一个有效的方法来检测“由”或“虚”的名字。一个例子字符串是: 他的名字是wuzzywugg,他有一个名为fizzbuzz 狗,我想训练NLTK是能够检测“wuzzywugg”和“fizzbuzz”的名字的字符。看到了一些解决方案,依靠开头大写字母词,但这种感觉很“哈克” 而且容易出错和误报。 如何解

    0热度

    1回答

    我需要执行命名实体识别/分类,并以IOB标记格式生成输出。 我使用的是NLTK chunker,由NLTK-train library交付,但生成树,而不是IOB标记列表。 def chunk_iob(list_of_words): nltk_tagger = nltk.data.load("taggers/conll2002_aubt.pickle") nltk_chunke

    0热度

    1回答

    我是机器学习的新手。我目前想要的是分类是否某些单词是否属于某一类别。 让我更具体一些,输入一些单词时,我需要检查这些单词是否属于“马拉雅拉姆语”。 例如:enthayi ninakk sugamanno? 这些是用英语表达的一些马拉雅拉姆语单词。在给出这样的输入时,需要检查训练的数据,并且如果有任何输入单词属于“马拉雅拉姆语”类别,则需要显示它是马拉雅拉姆语。 我已经尝试做.. 我试着将它与Nai

    0热度

    1回答

    我是新来的蟒蛇,我需要从文本中提取一个职位和我需要知道如何训练的命名实体识别和数据,其中训练数据