0
我想评价狮身人面像索引中最常用的单词。我发现它的唯一方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000
。但是这种方法不考虑形态。一个词以不同的形式计为几个词。也许有另一种方法来计数所有索引的单词吗?狮身人面像可以使用形态学统计其索引中的所有单词吗?
你试过'indextool --dumpdict'?提供了一个dict =关键字索引认为它会有所帮助。 – barryhunter
我试图转储,但无论如何不使用形态学形式。 –
你确定吗?我认为它必须。因为只有变形版本存储在索引中。它需要是morthed版本,以便关键字非常匹配。 dumpdict正在倾销索引中的实际字典! - 只检查了我的一个索引,它包含'bridg,2738,6794,11805033' - 但是这是'规范化'版本。这个词本身并不存在 – barryhunter