2015-07-20 67 views
0

我是elasticsearch的新手,想索引存储在HDFS上的网站日志以便快速查询。 我有一个结构良好的管道,每20分钟运行一次脚本将数据导入HDFS。 我想将elasticsearch与它集成,以便它还基于特定字段对这些日志进行索引,从而使用Spark SQL提供更快的查询结果。 所以,我的问题是,我可以索引我的数据只基于特定的领域? 另外,我的日志以avro文件格式保存。 es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式?用es-hadoop索引日志

预先感谢您。

回答

0

我建议你看看Elasticsearch,Logstash和Kibana堆栈,它应该足够好以满足您的需求。把它放在HDFS上,然后使用ES将是额外的开销。

取而代之,您可以使用Logstash将数据泵入ES,在您希望查询的任何字段上编制索引,并在不到10分钟的运动时间内构建简单的仪表板。阅读本教程以获得更好的分步指南。

http://hadooptutorials.co.in/tutorials/elasticsearch/log-analytics-using-elasticsearch-logstash-kibana.html

+0

所以,如果我存储在elasticsearch日志为好,不会它需要两倍的空间? –

+0

我的意思是,只存储到ES中。 –