2012-04-28 58 views
0

我使用Lucene的Term Freq向量来计算文档之间的余弦相似度, 假定我的文档有这3个术语,“欠”,“欠”,“欠”。 Lucene将此作为3个单独的术语,但其中3个意味着相同的“欠”。 Lucene中是否有可用于通过语义进行索引的功能?因此它将“欠”“欠”“欠”索引为词“欠”的词语频率= 3?Lucene索引与语义

如果不是,我会欢迎任何建议来完成这项任务?

回答

1

您可以将SnowballFilter与EnglishStemmer结合使用。它将用根动词词语替代那些动词(在你的例子中,它将是欠款,或者可能欠款)。