stop-words

    0热度

    1回答

    是否可以在stopfilterfactory中包含多字停用词Solr?如果是,请告诉我方式。 现在首先我把所有多字的禁用词在synonyms.txt文件,然后使用一个代名词,这些话是stopWords.txt中,但它不工作。

    0热度

    1回答

    我想读取一个csv文件 - 它有300万鸣叫。最后,我想删除停用词,并获得最多2,000个唯一字以及它们的频率。但是,在我到达这一点之前,我遇到了一个错误。这里是我的代码: import nltk from nltk.corpus import stopwords import csv f = open("/Users/shannonmcgregor/Desktop/ShanTweets.

    0热度

    2回答

    我希望我的输出搜索并计算单词“candy”和“gram”的频率,还要计算“candy gram”和“gram candy”的组合给出的文本(whole_file) 我目前使用下面的代码来显示“candy”和“gram”的出现次数,但是当我在%w中聚合组合时,只有“candy”和“gram”的单词和频率“显示。我应该尝试一种不同的方式吗?非常感谢。 myArray = whole_file.spli

    0热度

    1回答

    我的停用词不按预期工作。 这里是我的架构的一部分: <fieldType name="text_general" class="solr.TextField"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.StopFilt

    -2热度

    1回答

    我必须从包含50K推文的文本文件中删除停用词。当我运行此代码时,它会成功删除停用词,但同时它也会删除空格。我想在文本中使用空格。 from nltk.tokenize import word_tokenize from nltk.corpus import stopwords import codecs import nltk stopset = set(stopwords.words

    0热度

    2回答

    我的autosuggest中存在solr停用词问题。所有停用词都由_符号取代。 例如我在文本“deal_title”中有文本“简单文本”。当我尝试搜索单词“simple”solr show me next result“_ simple text _”,但我期望“简单文本”。 有人能解释我为什么这样工作,以及如何解决它? 这里是我的schema.xml中的一部分 <fieldType class=

    0热度

    3回答

    我正在使用Google Prediction API构建情感分析工具。我有一些标记的训练数据,我将用它来训练模型。由于这是从社交媒体收集的数据,因此句子中的大多数单词都是停用词,我希望在训练模型之前将其删除,这有助于提高准确性吗?有没有在Java中的任何图书馆,我可以用它来删除这些停用词,而不是建立自己的停用词。 问候 Deepesh

    0热度

    1回答

    我使用这个脚本,以消除在Perl无效搜索字词删除无效搜索字词,我在Windows上运行,我无法找到的 兼容版本: Lingua::EN::StopWordList Lingua::StopWords qw(getStopWords) 我有一个停止词的数组,但是一旦我使用下面的REGEX,我就会失去导致词语冲突的关键空格。 请注意,Stop-Word数组中的每个单词都有两个空格,一个在右侧,一

    6热度

    10回答

    我有一个字符串很多,我有一个文本文件,其中包含一些我需要从我的字符串中删除的停用词。 比方说,我有一个字符串 s="I love this phone, its super fast and there's so much new and cool things with jelly bean....but of recently I've seen some bugs." 去除停用词后,字符

    1热度

    2回答

    虽然这是一个常见问题,但我无法找到适用于我的案例的解决方案。我有数据,这是逗号分隔如下。 ['my scientific','data']['is comma-separated','frequency'] 我试图使用 from nltk.corpus import stopwords stopword = stopwords.words('english') mynewtext = [w