stop-words

2热度

2回答

for x,y in words: for z in x: if z in stopwords: del x[x.index(z)] 这是我的代码。在字的数据是元组的列表，其中一个元组看起来是这样的： (list of words, metadata) 我的代码的目的是从单词的列表中删除所有的禁用词。唯一的问题是，停用词不会被删除后... 我究竟做错了

0热度

3回答

R：在逆向中使用德语停用词，但防加入不起作用

我尝试使用tidyverse（http://tidyverse.org/）分析德语句子列表。我坚持这个指南（http://tidytextmining.com/）。当我尝试使用德语停用词表时，它不起作用。 library(tidyverse) library(readxl) # read excel library(tibble) # tobble dataframe library(dp

2热度

1回答

如何在Python中逐个读取文件中的令牌？

我遇到的问题是，在我的代码中，我无法获取单个词/标记以匹配停用词从原始文本中删除。相反，我得到了一整句话，因此无法将它与停用词相匹配。请告诉我一种方法，我可以获取个人令牌，然后用停用词匹配并删除它们。请帮帮我。 from nltk.corpus import stopwords import string, os def remove_stopwords(ifile): proces

0热度

1回答

NameError：name'stopwords'is not defined

由于某种原因，我收到错误NameError: name 'stopwords' is not defined，即使我已经安装了该软件包。我试图对一些反馈评论进行自然语言处理。 dataset对象是具有两列的表格，Reviews (a sentence of feedback)和目标变量Liked (1 or 0)。谢谢，谢谢！块1 import re import nltk nltk.dow

0热度

2回答

如何访问RTextTools中的停用词表？

尽管已经有关于向RTextTools提供停用词的自定义列表的解答，但我想了解有关访问现有/默认停用词列表的任何命令。

0热度

1回答

使用apache lucene取消停用词时的异常

我使用以下代码从输入文本中删除停用词。当tokenStream.incrementToken()运行时，我得到异常。 java.lang.IllegalStateException: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass doe

-1热度

1回答

字符串没有正确检查停止词

我正在读取文件中的停止词，我将它保存在HashSet中。我比较说HashSet与String检查停用词。如果我在String-变量中放置了一个单词，例如“the”，那么我的输出是“Yes”。但是，如果我将“Apple is it”或“它是一个苹果”这样的东西输出为“No”，尽管String -variables包含停用词。这里的整个程序，包含两种方法，一种用于读取文件和一个用于去除停止词： p

2热度

2回答

即使在将停用词添加到english.txt文件后，为什么停用词不会更新？

我在Python中使用stop_words包。目录路径usr/local/lib/python2.7/dist-packages/stop_words/stop-words中的english.txt文件中的停用词的原始数目为174，并且我添加了几个，列表变为218。我用下面的命令来获得停止词 from stop_words import get_stop_words en_stop = ge

1热度

1回答

无法移除停止词; NLP

我有一个包含2柱csv文件“投诉详细”和“DispositionCode'.I要的complaintDetails分为8不同类别dispostionCode的如‘门反锁’ ，'供应商错误'，'缺少密钥或锁'... 数据集显示在图像中。 enter image description here 什么是很好的方法来分类和找到准确性。起初我试图从ComplaintDetails去除停用词然后用naiv

0热度

1回答

从推文中删除停用词Python

我试图从我从Twitter导入的推文中删除停用词。删除停用词后，字符串列表将被放置在同一行的新列中。我可以一次轻松地完成这一行，但试图在整个数据框上循环方法似乎并不成功。我该怎么做？摘录我的数据： tweets['text'][0:5] Out[21]: 0 Why #litecoin will go over 50 USD soon ? So ma... 1 get 20 free #