2010-01-03 41 views
7

我看到this question,它主要关注“布兰特尼斯皮尔斯”问题。但我有一个不同的问题。算法如何确定哪些词或短语需要排名?例如,如果我发出一条说明“迈克尔杰克逊死亡”的推文,它如何知道拔出“迈克尔杰克逊”而不是“死亡”?Twitter的趋势主题算法如何决定从推文中提取哪些单词?

或者假设亚历克鲍德温和史蒂文鲍德温那天是新闻,因此在很多推文中都提到了这一点。如何知道以不同的方式处理这两个名称,而不是仅仅拔出“鲍德温”?

做得很天真,我可以看到这个问题是NP完全的(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。

回答

2

此问题的一般解决方案是"term frequency, inverse document frequency" (tf-idf)

这是一种统计方法,它找出比其他人更相关的单词/术语,因为它们不常见到。在这种情况下,与普通英文单词“死亡”相比,名称“迈克尔杰克逊”的频率可能非常低。

至于亚历克鲍德温与史蒂文鲍德温 - 这些将被确定为在part-of-speech tagging期间分开 - 他们将标记为单个专有名词。

2

我相信它会寻找一些常见的单词。此外,它似乎是参考http://www.whatthetrend.com/

除此之外,也可能有轻微的人为控制。