我看到this question,它主要关注“布兰特尼斯皮尔斯”问题。但我有一个不同的问题。算法如何确定哪些词或短语需要排名?例如,如果我发出一条说明“迈克尔杰克逊死亡”的推文,它如何知道拔出“迈克尔杰克逊”而不是“死亡”?Twitter的趋势主题算法如何决定从推文中提取哪些单词?
或者假设亚历克鲍德温和史蒂文鲍德温那天是新闻,因此在很多推文中都提到了这一点。如何知道以不同的方式处理这两个名称,而不是仅仅拔出“鲍德温”?
做得很天真,我可以看到这个问题是NP完全的(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。