0

我在跟随此guide将实时Web流量数据加载到S3中,将Lambda配置为加载到ES域索引中。目前对于每条记录,我在S3存储桶中创建一个名为{GUID} .json的新json文件,该文件只包含一行。例如:AWS ElasticSearch加载流式数据

{"email":"[email protected]","firstname":"Hello","lastname":"World"} 

所以,当这正式上线,这将上传数以百万计的JSON文件S3桶然后得到通过lambda函数推入ES。这是加载流数据的正确方法吗?或者我应该制定一个计划流程来每小时汇总多个记录,例如每个json文件记录10k条记录,然后上传到S3存储桶?我觉得这在技术上不是“实时流媒体”。

有什么建议吗?

回答

1

您是否尝试过使用AWS Kinesis Firehose将流数据加载到ElasticSearch?

参考:https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

它将采取大多需要离开您的最终努力。

+0

问候。请查看[Take a tour](http://stackoverflow.com/tour)和[你的回答在另一个城堡中:何时答案不是答案](http://meta.stackexchange.com/questions/225370 )了解为什么只有链接的答案不是答案。只需稍作修改即可改善您的答案。谢谢。 – Drew