频率和双字母组

我正在存储在Lucene索引中的n-gram达到3级。当我读了指数和计算方面和n元语法我获得这样的频率和双字母组

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819

结果让计分，如果我们看看“汤姆克鲁斯”的例子，一起它发生7次。由此我们看到“巡航”单独发生5次。所以我不想重复这个频率，因为单独的“巡航”比“汤姆巡航”的得分要好，这是不正确的，因为它被包含在里面。

对不起，如果我解释不好，我不知道如何称这种类型的得分，如果有人知道解释这个技术词汇，请编辑。

谢谢

来源

2010-08-27 Julia

我相信我回答了你刚才问过的一个类似问题。 IIUC，你想要更重要的条款脱颖而出，你觉得“汤姆巡航”比“巡航”更重要。

这看起来像是数据模型中的问题。 TFIDF似乎是错误的，你想要什么。您可以尝试构建语言模型，如Peter Norvig's "Beautiful Data" chapter中所述。

主旨在于：

计算每个每个单字组，二元和三字母组的概率（需要平滑或回退的文件作为解释）。
按概率而非TFIDF选择您的条款。

A Language Model Approach to Keyphrase Extraction似乎做类似的东西。一些替代品是Kea（其使用TFIDF作为几个中的一个特征）和Peter Turney's Keyphrase extraction work。

来源

2010-08-27 20:13:13

非常感谢您的提示。我去了Kea，但似乎提供了更多领域特定的受控词表，但是从Kea页面我读到了有关毛伊岛的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的结果非常好！但是，我现在要挖掘试图看到算法的详细信息和计分计算..谢谢！ – Julia 2010-08-28 12:19:28

频率和双字母组

回答

相关问题