任何人都可以点我参考或提供有关Facebook,雅虎,Google等公司如何执行大规模(如多TB范围)日志分析的高层次概述运营和特别是网络分析?实施大规模的日志文件分析
特别关注网络分析,我对两个密切相关的方面感兴趣:查询性能和数据存储。
我知道一般的方法是使用map reduce来将每个查询分布在集群上(例如使用Hadoop)。但是,什么是最有效的存储格式?这是日志数据,所以我们可以假设每个事件都有一个时间戳,而且通常数据是结构化的而不是稀疏的。大多数Web分析查询涉及分析两个任意时间戳之间的数据片,并检索该数据中的聚合统计信息或异常情况。
像大表(或HBase)这样的面向列的数据库是否是一种有效的存储方式,更重要的是查询这些数据?您是否选择行的子集(基于时间戳)是否违背了此类存储的基本前提?将它作为非结构化数据存储会更好吗,例如。反向指数?
对于指向Aster Data的指针+1。从来没有听说过他们,他们看起来很有趣。 – Elad 2011-04-14 07:16:56