假设我有一个口号列表(简短的多词短语),并且人们已经为他们最喜欢的那个投了票,我想评估哪些单词(如果有的话)使一些口号比其他口号更受欢迎。什么是实现这一目标的最佳方式?我的第一个想法是找到口号中的所有独特单词,并将每一个单词作为包含所述单词的所有口号的平均投票数,但我认为频率也应以某种方式发挥作用以下应该是正确的:确定哪些单词使短语流行的算法
- 如果单词A只出现在获得最多选票的口号中,并且单词B仅出现在获得第二最多的口号中,则单词A更多地是“流行性生成”
- 但是,如果Word A只出现在排名最高的口号中,而Word B出现在排名第二和第三的口号中,则Word B应该赢,因为它将更多口号推到顶端。
- 然而,如果单词出现在顶部口号中的Word A在其他口号中应该仍然胜过三次出现的字B,例如,如果它们位于包的中间或下半部分(也就是说,需要在投票中获得投票和频率的平衡)。
我也想排除一般常见的词(如“the”或“of”)。这与关于识别过去曾被问过的趋势词有关的问题有关,但与之不同的是,随着时间的推移并不是一个因素。就文学而言,我很乐意指出这方面的正确方向,但我不确定要寻找什么。这是其他人处理的一类问题吗?
http://metaoptimize.com/qa上的人会对此有所了解。 – Frank 2010-12-04 00:48:53