2009-08-02 154 views
20

我正在为某些英文文本生成一些统计信息,并且希望跳过无用的单词,如“a”和“the”。英语“停止词”列表?

  • 我在哪里可以找到这些无趣的单词的列表?
  • 这些单词列表是否与英语中使用最频繁的单词列表相同?

更新:这些显然被称为“停止词”,而不是“跳过词”。

+6

标题编辑是完全合法的,最重要的是,/使它成为一个真正的问题/。你为什么要推回来?看起来,拥有13.9k代表的人可以用一个问题来形容一个问题,你知道这是一个问题。 – belgariontheking 2009-08-11 12:09:52

+0

非英语停用词怎么样? – adib 2011-07-05 16:48:38

+0

你可以在http://toolspot.org/list-english-stop-words.php找到停用词表的列表。 – Sunny 2013-09-03 03:33:19

回答

20

魔语投入谷歌是“停止词”。这变成a reasonable-looking list

MySQL也有一个built-in list of stop words,但这是太过全面,我的口味。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是一个停止词。

5

这些被称为stop words,检查此sample

+2

你的链接已发布,存档:http://web.archive.org/web/20080501010608/http: //www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words – bobobobo 2009-10-30 22:35:11

4

获取有关大txt语料库中词频的统计信息。忽略频率>某个数字的所有单词。

2

我以前在用lucene.net创建一个搜索应用程序时,使用了来自here的德语的停用词表。该网站也包含一个英文列表,网站上的列表显然也是lucene项目默认使用的列表。

5

根据您工作的英语子域,您可能希望编译自己的停用词表。一些通用停词可能在域中有意义。例如。单词“是”实际上可以是an abbreviation/acronym in some domain。相反,您可能要忽略一些域名特定字词,具体取决于您的应用,您可能不想在通用英语域中忽略该字词。例如。如果你正在分析一个医院报告的语料库,你可能希望忽略像'历史'和'症状'这样的词汇,因为它们在每个报告中都可以找到,并且可能没有用(从普通的香草倒置指数角度来看)。

否则,Google返回的列表应该没问题。 Porter Stemmer uses this和Lucene搜索引擎实施uses this

2

通常,这些词将出现在频率最高的文档中。 假设你有话的全局列表:

{ Word Count } 

随着单词列表,如果你下令从最高计数到最低的话,你将有一个图表(计数(Y轴)和字( x轴),即倒数对数函数,所有的停止词将在左边,“停止词”的停止点将位于最高的一阶导数存在的地方。

该解决方案是不是一个字典尝试更好:

  • 该解决方案是不是按语言
  • 这种尝试学习被认为有什么话要“停止词”
  • 势必一个普遍的方法这种尝试对于非常相似的集合会产生更好的结果,并为集合中的项目生成唯一的单词列表
  • 可以在稍后时间重新计算停用词(可以进行缓存并进行统计确定在停止词可能已经改变,从他们被计算)
  • 这也可以消除基于时间或非正式的单词和名称(如俚语,或者如果你有一堆文件,公司名称作为标题)

词典尝试更好:

  • 的查找时间更快
  • 结果预缓存
  • 其简单
  • 有些人想出了停止词。