stop-words

    0热度

    1回答

    我正在处理一个单词项目包,我想从停止词的NLTK列表中删除停用词。在那一刻,我这样做: words.difference_update(set(stopwords.words("english"))) (字被包含在语料库中的所有单词一组) 然而,当我看的stopwords.words("english")我看到这样的话的内容: “cann”和“doesn”。我假设这些是“不能”和“不”等单词的词语

    0热度

    1回答

    我试图从使用Pig的工作描述关系中移除停用词。然而,我无法加入两个关系来将停用词匹配到我的文本。 我的数据是每行有两个条目csv文件: 我也有630英语列表禁用词: 猪,我加载这两个文件并按以下方式转换第一个: jobs10 = load 'data/hw4/jobs/20140213_descriptions10.csv' using PigStorage(',') as (id:chararr

    1热度

    2回答

    我正在使用NLTK从列表元素中删除停用词。 这里是我的代码片段 dict1 = {} for ctr,row in enumerate(cur.fetchall()): list1 = [row[0],row[1],row[2],row[3],row[4]] dict1[row[0]] = list1 print ctr+1,"\n",dict1

    2热度

    1回答

    添加禁用词处理程序秧鸡我有一个过滤器,它们与执行的分类: filter.setStopwordsHandler(new MyStopWordsHandler(stopwords_filename)); 的MyStopWordsHandler的代码是: public class MyStopWordsHandler implements StopwordsHandler{ Buffe

    2热度

    1回答

    我想在Lucene 5.5.0中使用StopFilter。我试过如下: package lucenedemo; import java.io.StringReader; import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.HashSet;

    1热度

    2回答

    我在哪里可以找到停用词的详尽列表?我拥有的这本书很短,似乎不适用于科学文献。 我正在创建词汇链以从科学论文中提取关键主题。问题在于,像based,regarding等词语也应该被视为停用词,因为它们没有太多意义。

    0热度

    2回答

    我正在使用Python 3.5,我试图从我的数据集中删除NLTK stopWords,并且当我运行一个结合两者的语句对于&如果不在一个语句中,错误。搜索错误没有产生任何有用的结果。下面附 代码和错误快照进入这里 base_data['stemmed_stop_comments'] = [word for word in base_data['stemmed_comments'] if not wo

    0热度

    1回答

    在使用NLTK的python中,如何找到按类别过滤的文档中非停用词的数量? 我可以弄清楚如何获得按类别过滤的语料库中的单词,例如,所有在类别“新闻”棕色语料库中的词是: text = nltk.corpus.brown.words(categories=category) 而且分开我能弄清楚如何让所有的单词为特定文档例如所有在棕色语料库文档“cj47”的话来说就是: text = nltk.c

    0热度

    1回答

    我在PHP中使用了关于从孟加拉语文本搜索关键字的代码。它给出输出,但我面临三个问题 - 它不会忽略我声明的停用词数组。 它假设给出10个关键字,但有时它会给出11/12/13关键字。 它有时会给出与输出相同的单词。 这是我的代码: <form enctype="multipart/form-data" action="?action=extractKeyWords" method="POST">

    0热度

    1回答

    我试图使用NLTK删除停用词。我在第四行有一个语法错误,但前三行很好。 File "<stdin>", line 1 print [i for i in senten ^ SyntaxError: invalid syntax 我的代码: from nltk.corpus import stopwords stop = stopwords.words('english'