2010-08-27 79 views
0

我正在存储在Lucene索引中的n-gram达到3级。当我读了指数和计算方面和n元语法我获得这样的频率和双字母组

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819 

结果让计分,如果我们看看“汤姆克鲁斯”的例子,一起它发生7次。由此我们看到“巡航”单独发生5次。所以我不想重复这个频率,因为单独的“巡航”比“汤姆巡航”的得分要好,这是不正确的,因为它被包含在里面。

对不起,如果我解释不好,我不知道如何称这种类型的得分,如果有人知道解释这个技术词汇,请编辑。

谢谢

回答

3

我相信我回答了你刚才问过的一个类似问题。 IIUC,你想要更重要的条款脱颖而出,你觉得“汤姆巡航”比“巡航”更重要。

这看起来像是数据模型中的问题。 TFIDF似乎是错误的,你想要什么。 您可以尝试构建语言模型,如Peter Norvig's "Beautiful Data" chapter中所述。

主旨在于:

  • 计算每个每个单字组,二元和三字母组的概率(需要平滑或回退的文件作为解释)。
  • 按概率而非TFIDF选择您的条款。

A Language Model Approach to Keyphrase Extraction似乎做类似的东西。一些替代品是Kea(其使用TFIDF作为几个中的一个特征)和Peter Turney's Keyphrase extraction work

+0

非常感谢您的提示。我去了Kea,但似乎提供了更多领域特定的受控词表,但是从Kea页面我读到了有关毛伊岛的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的结果非常好!但是,我现在要挖掘试图看到算法的详细信息和计分计算..谢谢! – Julia 2010-08-28 12:19:28