2014-02-19 59 views
0

让我首先说我是一个Hadoop的新手。我的要求是使用Hadoop基础结构分析服务器日志文件。我在这个方向上采取的第一步是使用Flume HDFS接收器对日志文件进行流式处理并将它们原始转储到单节点Hadoop集群中。现在我有一个看起来像这样记录的一堆文件:处理HDFS文件

时间戳REQ-ID级别模块名消息

我的下一步是解析文件(分离出字段),并将它们存储回去以便他们准备好进行搜索。

我应该用什么方法呢?我可以使用Hive来做到这一点吗? (抱歉,如果问题是天真的)。互联网上可用的信息是压倒性的。

回答

0

您可以使用HCatalog或Impala进行更快的查询。

0

根据你的解释你有时间序列data.Hadoop与HDFS本身并不意味着随机访问或查询。你可以使用HBase作为hadoop的数据库作为HDFS的后端文件系统。这对随机访问很有用。 同样为了您的需要解析和重新排列数据,您可以使用Hadoop的MapReduce.HBase内置的支持。 HBase可以用于MapReduce Job的输入/输出。

您可以从here获取基本信息。为了更好地理解,请阅读HBase/HBase in Action书籍的权威指南。