Apache Streaming API的Apache Cassandra数据架构

我知道Twissandra这是一个使用Cassandra的twitter克隆的示例，但我有兴趣查看是否有人共享Cassandra架构不是为了克隆Twitter，而是用于存储通过Twitter发送的推文流媒体API？Apache Streaming API的Apache Cassandra数据架构

你对此有何更新吗？你有没有对你有用的计划？ – felipeclopes

我放弃卡桑德拉和HBase的使用，而不是用自定义模式 –

这很大程度上取决于您在摄入数据后想要对数据进行什么样的查询 - 我从您之前的问题“转储Twitter流式API推文...”中看到，您可能只是想要进行大批量处理在上面。

如果是这种情况，您只需要担心负载平衡，确保集群中的每个节点处理写入负载的1/n，并且包含1/n数据 - 使用随机分区并插入每鸣叫一行与状态ID为行键将实现这一目标。

但是，如果你想要做像“给我一个给定用户的所有微博”的查询，您将需要一个稍微复杂的模式，如上文所建议的架构将要求您扫描所有的数据。你可以每行插入多鸣叫，行键为用户ID，列键为鸣叫ID和作为鸣叫价值。然后，您可以使用get_slice来回答该查询。

2011-08-21 10:55:10

回答