用es-hadoop索引日志

我是elasticsearch的新手，想索引存储在HDFS上的网站日志以便快速查询。我有一个结构良好的管道，每20分钟运行一次脚本将数据导入HDFS。我想将elasticsearch与它集成，以便它还基于特定字段对这些日志进行索引，从而使用Spark SQL提供更快的查询结果。所以，我的问题是，我可以索引我的数据只基于特定的领域？另外，我的日志以avro文件格式保存。 es是否提供了一种直接索引avro序列化数据的方法，还是需要将其转换为其他格式？用es-hadoop索引日志

预先感谢您。

来源

2015-07-20 Shubham Gupta