stop-words

    2热度

    4回答

    有没有简单的方法可以通过提取查询中有意义的数据来实现筛选用户的输入(可能是一个问题)? 我基本上想过滤掉任何噪音词,所以我可以发送一个'干净的'查询谷歌的搜索api。

    4热度

    1回答

    我在SQL Server 2008中使用全文搜索索引创建了数据库。我在Stoplist中定义了Stopword'al'。但是,当我搜索关键字'al'的任何短语时,单词'al'仍然在排名中。 这可能与我分解搜索词并重构它们有关。然后我搜索多个字段并对结果进行排名:http://pastebin.com/fdce11ff。此功能分手搜索 'al hamra' 到 ("*al*" ~ "*hamra

    8热度

    5回答

    我在哪里可以找到希伯来语停用词的列表? 编辑:编辑我的答案添加更多,如果有更多...

    2热度

    1回答

    我有两个Xapian数据库,我们称之为“EN”和另一个“DE”,假设前者包含一些英文文档,后者包含一些德文版本。 如果我希望用户能够同时搜索两个,我可以轻松加载这两个数据库。但是,似乎我只能使用一个词干和一组停用词? 没有办法实例化英文词干,并且只适用于来自“EN”数据库的结果?没有办法用英文单词创建Stopper,并且仅适用于来自“EN”数据库的结果。 这是正确的吗?

    18热度

    4回答

    我正在寻找一种类或方法,需要一个长100多万字的单词和标记的字符串,删除在IR系统中使用的停用词和词干。 例如: “大肥猫,说:‘你最有趣的家伙,我知道’的袋鼠......” 标记生成器将消除标点和回报也就是说 停用词卸妆将删除像“”,“来”字的ArrayList等 词干会减少他们的'根'每个单词,例如'最有趣'会变得有趣 非常感谢提前。

    20热度

    6回答

    我正在为某些英文文本生成一些统计信息,并且希望跳过无用的单词,如“a”和“the”。 我在哪里可以找到这些无趣的单词的列表? 这些单词列表是否与英语中使用最频繁的单词列表相同? 更新:这些显然被称为“停止词”,而不是“跳过词”。

    7热度

    1回答

    我目前正在尝试为我的网站开发一个基本的全文搜索,并且我注意到像“有关”这样的特定单词被列为MySQL全文搜索的停用词。由于搜索给定新闻项目的人不一定会使用“有关”一词进行搜索(但我当然不能为所有人说话),所以这并不会让我感到太麻烦。不过,我希望这里有人能够启发我关于制定停用词表的理由。谢谢! For Clarification: 我使用MyIsam作为我的全文表格。停用词是MySQL不会索引的词(