0
我正在存储在Lucene索引中的n-gram达到3级。当我读了指数和计算方面和n元语法我获得这样的频率和双字母组
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
结果让计分,如果我们看看“汤姆克鲁斯”的例子,一起它发生7次。由此我们看到“巡航”单独发生5次。所以我不想重复这个频率,因为单独的“巡航”比“汤姆巡航”的得分要好,这是不正确的,因为它被包含在里面。
对不起,如果我解释不好,我不知道如何称这种类型的得分,如果有人知道解释这个技术词汇,请编辑。
谢谢
非常感谢您的提示。我去了Kea,但似乎提供了更多领域特定的受控词表,但是从Kea页面我读到了有关毛伊岛的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的结果非常好!但是,我现在要挖掘试图看到算法的详细信息和计分计算..谢谢! – Julia 2010-08-28 12:19:28