2011-01-21 88 views
3


我需要建立矩阵,但是我找不到一种方法来计算每个单元的标准化tf-idf。 我会执行的规范化是余弦归一化,即每1/sqrt(列中的sumOfSquaredtf-idf)除tf-idf(使用DefaultSimilarity计算)。Lucene。如何建立一个term-doc矩阵

有没有人知道一种方式来执行该操作?预先
由于
安东尼奥

回答

1

一种方法,不使用Lucene,在Sujit Pal's blog进行说明。或者,您可以构建一个Lucene索引,该索引具有每个字段的术语向量,对术语进行迭代以获得idf,然后迭代术语文档以获得tf。