将文档中的文本频率与语料库中的频率进行比较

我想分析文档中的项目，如字母，双字母，单词等，并比较它们在文档中的频率，以及它们对于大型语料库文档。将文档中的文本频率与语料库中的频率进行比较

这个想法是，诸如“如果”，“和”，“该”这样的词在所有文档中都是常见的，但是在该文档中一些词比在语料库中通常更常见。

这必须是非常标准的。这叫什么？这样做明显的方式，我总是有一个问题，在我的文档中的新词，但没有在语料库评级无限重要。这是如何处理的？

可你什么指标你的文本做你展开需要？ – matcheek 2010-12-07 02:14:36

@matcheek：我能找到的大多数文档都是关于找到最适合搜索一个或多个单词的文档，但我最感兴趣的是在文档中找到“最有趣”的单词/短语/ ngrams。像亚马逊的“统计不可思议的短语”。 – hippietrail 2010-12-08 00:14:23

很可能您已经检查了tf-idf 或okapi_bm25家族的其他一些指标。

还可以检查natural language processing toolkit nltk一些现成的解决方案

UPDATE：作为小说的话，平滑应适用：Good-Turing，拉普拉斯等

2010-12-07 02:02:05 matcheek

它属于线性分类器的标题，朴素贝叶斯分类器是最知名的形式（由于其在攻击真实世界分类问题方面非常简单和稳健）。

2010-12-07 01:55:23

在阅读您的答案后，我对“朴素贝叶斯分类器”做了大量的阅读，并发现该区域令人着迷。但我看不出与我的问题有直接关系，似乎“tf-idf”涵盖了这个问题。 – hippietrail 2011-04-30 21:40:38

回答