2008-12-22 86 views
2

有没有简单的方法可以通过提取查询中有意义的数据来实现筛选用户的输入(可能是一个问题)?筛选搜索查询的常用词

我基本上想过滤掉任何噪音词,所以我可以发送一个'干净的'查询谷歌的搜索api。

回答

1

Jeff在之前的一个stackoverflow播客中谈到了“停用词”。您可以尝试在Google上搜索该短语。维基百科页面似乎有一些概述和指向选项。

http://en.wikipedia.org/wiki/Stop_words

0

你可以尝试删除前X最常用的英语单词,但你总是这样的天真的做法遇到了麻烦。

这是因为普通英语单词在计算机科学领域(或其他领域)可能具有特殊意义。最近SO播客(#32)提到这个问题。

2

恩,Google不会为你做这个吗?将所有那些肮脏,肮脏的词汇发送给Google,让他们为您清理它们。

0

我在执行基本搜索引擎时使用了停用词的方法,并且它工作正常。 尝试像这样的样本列表here

根据用户的反馈,您可以相应地修改您的停用词列表。