2017-08-25 199 views
0

我想评价狮身人面像索引中最常用的单词。我发现它的唯一方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000。但是这种方法不考虑形态。一个词以不同的形式计为几个词。也许有另一种方法来计数所有索引的单词吗?狮身人面像可以使用形态学统计其索引中的所有单词吗?

+0

你试过'indextool --dumpdict'?提供了一个dict =关键字索引认为它会有所帮助。 – barryhunter

+0

我试图转储,但无论如何不使用形态学形式。 –

+0

你确定吗?我认为它必须。因为只有变形版本存储在索引中。它需要是morthed版本,以便关键字非常匹配。 dumpdict正在倾销索引中的实际字典! - 只检查了我的一个索引,它包含'bridg,2738,6794,11805033' - 但是这是'规范化'版本。这个词本身并不存在 – barryhunter

回答

1

正如评论中指出的那样,可以使用indextool --dumpdict - 这应该从索引中提供单词计数。因为它来自索引,它已经按照charset_table,wordforms,甚至形态学被“规范化”了。

(但只适用于一个dict=keywords指数)