nltk

1热度

1回答

我正在Python中对一组文本数据执行文本聚类。基本上，我使用TF IDF得分，然后应用结果矩阵为k均值算法就是这样： vect = TfidfVectorizer(min_df=100,stop_words=sw) dtm = vect.fit_transform(df) l=vect.get_feature_names() k = 15 model = MiniBatchKMean

-1热度

1回答

在python中调用函数时出错“函数未定义”

我面临这个错误，我的函数被说成是没有定义的尽管我已经正确定义并调用函数，这是我得到的错误，请帮助：文件“split_text.py”，行80，在 split_pun（字）#passing词的价值split_pun函数删除标点但是这给了我一个错误 NameError：名字“split_pun”没有定义这里是代码： """ Natural Language Toolkit: Urdu Langu

2热度

1回答

如何在Python中逐个读取文件中的令牌？

我遇到的问题是，在我的代码中，我无法获取单个词/标记以匹配停用词从原始文本中删除。相反，我得到了一整句话，因此无法将它与停用词相匹配。请告诉我一种方法，我可以获取个人令牌，然后用停用词匹配并删除它们。请帮帮我。 from nltk.corpus import stopwords import string, os def remove_stopwords(ifile): proces

0热度

1回答

Nltk json数据加载错误

我想加载一个json数据文件，以便使用nltk框架来分析它，但得到一个AttributeError：'list'对象没有属性'keys'。我已经尝试删除最后的“json”部分，因为文档指出数据类型是由文件的扩展名自动检测的。也试图在开始时删除数据库无济于事。任何想法，我可能会磕磕绊绊？ import json import nltk database = nltk.data.load("da

0热度

1回答

如何将输入作为文本文件在NLTK的tokenize.regexp python

基本上我有文本文件作为输入到NLTK的tokenize.regexp。如何输入文本文件到下面的代码： '从nltk.tokenize进口RegexpTokenizer 标记生成器= RegexpTokenizer（R' \ W + '）的原始= doc_a.lower（）#instead' DOC_A “我希望我的文本文件作为输入令牌= tokenizer.tokenize（RAW）`

0热度

1回答

nltk停用词删除给出了错误的输出

我在删除停用词时遇到了问题。当我执行我的脚本时：' import nltk from nltk.corpus import stopwords file1=open('english.txt', 'r') english=file1.read() file1.close() english_corpus_lowercase =([w.lower() for w in english])

1热度

1回答

关于斯坦福分词器

我最近试图用斯坦福分词器来处理Python中的中文数据。但是当我运行分段器时，我遇到了一些问题。这里是我在Python中输入的代码： segmenter = StanfordSegmenter(path_to_jar = '/Applications/Python3.6/stanford-segmenter/stanford-segmenter.jar', path_to_

0热度

1回答

TF-IDF矩阵在Python

我的代码来计算TF-IDF的语料库是这样的： from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer train_set = "i have a ball", "he is good", "she playe

0热度

2回答

Python和nGrams

Aster用户在这里试图完全移动到python的基本文本分析。我想在Python中使用nltk或其他模块复制ASTER ngram的输出。我需要能够为1到4的ngram做到这一点。输出到csv。 DATA： Unique_ID, Text_Narrative OUTPUT需要： Unique_id, ngram(token), ngram(frequency) 输出示例： 023345

1热度

1回答

SnowballStemmer for Russian单词列表

我知道如何在单个单词上执行SnowballStemmer（在我的情况下，在俄语单词上）。在做下一件事： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎么可以做以下，如果我有一个像[“Василий”