我想知道有效的算法/数据结构来识别流数据中的以下信息。数据结构/算法流数据和确定主题
考虑像Twitter这样的实时流数据。我主要对下面的查询感兴趣,而不是存储实际的数据。
我需要我的查询来运行实际数据,但不是任何重复。
由于我对存储完整的数据不感兴趣,因此我很难识别重复的帖子。但是,我可以散列所有帖子并检查它们。但我想确定接近重复的帖子。我怎样才能做到这一点。
确定用户正在讨论的前k个主题。
我想确定用户正在讨论的热门话题。我不想要Twitter中显示的最高频率词。相反,我想给一些高级别话题的最常见的话题名称。
我希望我的系统是实时的。我的意思是,我的系统应该能够处理任何数量的流量。
我能想到map缩减的方法,但我不知道如何处理同步问题。例如,重复的帖子可以到达不同的节点,并且它们都可以将它们存储在索引中。
在一个典型的新闻来源,一个将删除数据中的任何停用词。在我的系统中,我想通过识别广泛主题中的顶级常用单词来更新停用词列表。
什么将是有效的算法/数据结构来实现这一点。
我想存储一段时间内的主题来检索数据中有趣的模式。说,周五晚上,每个人都想去看电影。什么将是存储这些数据的有效方式。
我想将它存储在Hadoop分布式文件系统,但过了一段时间后,这些指标变得如此之大,I/O将是我的主要瓶颈。
考虑来自世界各地推文的多语种数据。我如何确定在一个地理区域内正在讨论的类似主题?
这里有2个问题。一种是识别正在使用的语言。它可以基于个人推特进行识别。但是这些信息可能会影响用户的隐私。其他的想法,可以通过训练算法来运行它。目前最好的方法是什么?其他问题实际上是在字典中查找单词,并将其与常见的中间语言(如说英语)相关联。如何照顾词义消歧,如同一个词在不同的比赛中使用。
识别单词边界
一种可能是使用某种训练算法。但是,最好的方法是什么?这在某种程度上类似于词义消歧,因为您可以根据实际的句子确定词边界。
我想开发一个原型并评估系统而不是具体的实现。我认为它不可能取消实时twitter数据。我认为这种方法可以在一些在线免费提供的数据上进行测试。任何想法,我可以得到这些数据。
您的反馈是赞赏。
谢谢你的时间。
- 巴拉
'有趣的主题,糟糕的问题...“也许这应该被分成多个问题;此外,通过提供更具体的问题信息,您可以向潜在的回应者表明,您真的关心问题并且真正关心他们。 – mjv 2010-01-22 03:53:40
其实我不知道这个网站的格式。现在我正确格式化了它。我想通过不分解问题来让用户了解系统的完整概念。谢谢。 – Boolean 2010-01-22 03:58:33