狮身人面像可以使用形态学统计其索引中的所有单词吗？

我想评价狮身人面像索引中最常用的单词。我发现它的唯一方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000。但是这种方法不考虑形态。一个词以不同的形式计为几个词。也许有另一种方法来计数所有索引的单词吗？狮身人面像可以使用形态学统计其索引中的所有单词吗？

来源

2017-08-25 abr_stackoverflow

你试过'indextool --dumpdict'？提供了一个dict =关键字索引认为它会有所帮助。 – barryhunter

我试图转储，但无论如何不使用形态学形式。 –

你确定吗？我认为它必须。因为只有变形版本存储在索引中。它需要是morthed版本，以便关键字非常匹配。 dumpdict正在倾销索引中的实际字典！ - 只检查了我的一个索引，它包含'bridg，2738,6794,11805033' - 但是这是'规范化'版本。这个词本身并不存在 – barryhunter

正如评论中指出的那样，可以使用indextool --dumpdict - 这应该从索引中提供单词计数。因为它来自索引，它已经按照charset_table，wordforms，甚至形态学被“规范化”了。

（但只适用于一个dict=keywords指数）

来源

2017-08-29 12:45:34 barryhunter

狮身人面像可以使用形态学统计其索引中的所有单词吗？

回答

相关问题