处理HDFS文件

让我首先说我是一个Hadoop的新手。我的要求是使用Hadoop基础结构分析服务器日志文件。我在这个方向上采取的第一步是使用Flume HDFS接收器对日志文件进行流式处理并将它们原始转储到单节点Hadoop集群中。现在我有一个看起来像这样记录的一堆文件：处理HDFS文件

时间戳REQ-ID级别模块名消息

我的下一步是解析文件（分离出字段），并将它们存储回去以便他们准备好进行搜索。

我应该用什么方法呢？我可以使用Hive来做到这一点吗？（抱歉，如果问题是天真的）。互联网上可用的信息是压倒性的。

来源

2014-02-19 Sandesh Hurli

您可以使用HCatalog或Impala进行更快的查询。

来源

2014-02-19 07:08:59 user2617319

根据你的解释你有时间序列data.Hadoop与HDFS本身并不意味着随机访问或查询。你可以使用HBase作为hadoop的数据库作为HDFS的后端文件系统。这对随机访问很有用。同样为了您的需要解析和重新排列数据，您可以使用Hadoop的MapReduce.HBase内置的支持。 HBase可以用于MapReduce Job的输入/输出。

您可以从here获取基本信息。为了更好地理解，请阅读HBase/HBase in Action书籍的权威指南。

来源

2014-02-19 08:40:07

处理HDFS文件

回答

相关问题