nltk

    1热度

    1回答

    我正在Python中对一组文本数据执行文本聚类。基本上,我使用TF IDF得分,然后应用结果矩阵为k均值算法就是这样: vect = TfidfVectorizer(min_df=100,stop_words=sw) dtm = vect.fit_transform(df) l=vect.get_feature_names() k = 15 model = MiniBatchKMean

    -1热度

    1回答

    我面临这个错误,我的函数被说成是没有定义的尽管我已经正确定义并调用函数,这是我得到的错误,请帮助: 文件“split_text.py”,行80,在 split_pun(字)#passing词的价值split_pun函数删除标点但是这给了我一个错误 NameError:名字“split_pun”没有定义 这里是代码: """ Natural Language Toolkit: Urdu Langu

    2热度

    1回答

    我遇到的问题是,在我的代码中,我无法获取单个词/标记以匹配停用词从原始文本中删除。相反,我得到了一整句话,因此无法将它与停用词相匹配。请告诉我一种方法,我可以获取个人令牌,然后用停用词匹配并删除它们。请帮帮我。 from nltk.corpus import stopwords import string, os def remove_stopwords(ifile): proces

    0热度

    1回答

    我想加载一个json数据文件,以便使用nltk框架来分析它,但得到一个AttributeError:'list'对象没有属性'keys'。我已经尝试删除最后的“json”部分,因为文档指出数据类型是由文件的扩展名自动检测的。也试图在开始时删除数据库无济于事。任何想法,我可能会磕磕绊绊? import json import nltk database = nltk.data.load("da

    0热度

    1回答

    基本上我有文本文件作为输入到NLTK的tokenize.regexp。如何输入文本文件到下面的代码: '从nltk.tokenize进口RegexpTokenizer 标记生成器= RegexpTokenizer(R' \ W + ')的 原始= doc_a.lower()#instead' DOC_A “我希望我的文本文件作为输入 令牌= tokenizer.tokenize(RAW)`

    0热度

    1回答

    我在删除停用词时遇到了问题。当我执行我的脚本时:' import nltk from nltk.corpus import stopwords file1=open('english.txt', 'r') english=file1.read() file1.close() english_corpus_lowercase =([w.lower() for w in english])

    1热度

    1回答

    我最近试图用斯坦福分词器来处理Python中的中文数据。但是当我运行分段器时,我遇到了一些问题。这里是我在Python中输入的代码: segmenter = StanfordSegmenter(path_to_jar = '/Applications/Python3.6/stanford-segmenter/stanford-segmenter.jar', path_to_

    0热度

    1回答

    我的代码来计算TF-IDF的语料库是这样的: from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer train_set = "i have a ball", "he is good", "she playe

    0热度

    2回答

    Aster用户在这里试图完全移动到python的基本文本分析。 我想在Python中使用nltk或其他模块复制ASTER ngram的输出。我需要能够为1到4的ngram做到这一点。输出到csv。 DATA: Unique_ID, Text_Narrative OUTPUT需要: Unique_id, ngram(token), ngram(frequency) 输出示例: 023345

    1热度

    1回答

    我知道如何在单个单词上执行SnowballStemmer(在我的情况下,在俄语单词上)。在做下一件事: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎么可以做以下,如果我有一个像[“Василий”