2011-08-21 64 views
1

我知道Twissandra这是一个使用Cassandra的twitter克隆的示例,但我有兴趣查看是否有人共享Cassandra架构不是为了克隆Twitter,而是用于存储通过Twitter发送的推文流媒体API?Apache Streaming API的Apache Cassandra数据架构

+0

你对此有何更新吗?你有没有对你有用的计划? – felipeclopes

+0

我放弃卡桑德拉和HBase的使用,而不是用自定义模式 –

回答

6

这很大程度上取决于您在摄入数据后想要对数据进行什么样的查询 - 我从您之前的问题“转储Twitter流式API推文...”中看到,您可能只是想要进行大批量处理在上面。

如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理写入负载的1/n,并且包含1/n数据 - 使用随机分区并插入每鸣叫一行与状态ID为行键将实现这一目标。

但是,如果你想要做像“给我一个给定用户的所有微博”的查询,您将需要一个稍微复杂的模式,如上文所建议的架构将要求您扫描所有的数据。你可以每行插入多鸣叫,行键为用户ID,列键为鸣叫ID和作为鸣叫价值。然后,您可以使用get_slice来回答该查询。

好(有点关系)的博客文章:http://blog.insidesystems.net/basic-time-series-with-cassandra

相关问题