实施大规模的日志文件分析

任何人都可以点我参考或提供有关Facebook，雅虎，Google等公司如何执行大规模（如多TB范围）日志分析的高层次概述运营和特别是网络分析？实施大规模的日志文件分析

特别关注网络分析，我对两个密切相关的方面感兴趣：查询性能和数据存储。

我知道一般的方法是使用map reduce来将每个查询分布在集群上（例如使用Hadoop）。但是，什么是最有效的存储格式？这是日志数据，所以我们可以假设每个事件都有一个时间戳，而且通常数据是结构化的而不是稀疏的。大多数Web分析查询涉及分析两个任意时间戳之间的数据片，并检索该数据中的聚合统计信息或异常情况。

像大表（或HBase）这样的面向列的数据库是否是一种有效的存储方式，更重要的是查询这些数据？您是否选择行的子集（基于时间戳）是否违背了此类存储的基本前提？将它作为非结构化数据存储会更好吗，例如。反向指数？

来源

2009-04-27 Rob