我是elasticsearch的新手,想索引存储在HDFS上的网站日志以便快速查询。 我有一个结构良好的管道,每20分钟运行一次脚本将数据导入HDFS。 我想将elasticsearch与它集成,以便它还基于特定字段对这些日志进行索引,从而使用Spark SQL提供更快的查询结果。 所以,我的问题是,我可以索引我的数据只基于特定的领域? 另外,我的日志以avro文件格式保存。 es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式?用es-hadoop索引日志
预先感谢您。
所以,如果我存储在elasticsearch日志为好,不会它需要两倍的空间? –
我的意思是,只存储到ES中。 –