我正在处理涉及监视大量rss/atom feed的项目。我想使用hbase进行数据存储,并且在设计模式时遇到一些问题。对于第一次迭代,我希望能够生成汇总的Feed(从反向时间顺序的所有Feed中的最后100个帖子)。使用hbase的Feed聚合器。如何设计架构?
目前我使用两个表:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data found in RSS stored in Meta
我需要某种形式的索引表的汇总饲料。我应该如何构建? hbase是这种应用程序的不错选择吗?
问题更新:是否有可能(以hbase为基础)设计一个可以高效回答下面列出的查询的模式? HBase的用户邮件列表上
SELECT data FROM Urls ORDER BY date DESC LIMIT 100