2017-09-05 110 views
0

我见过的所有例子都与Java程序有关吗?如何实现Amazon EMR从我的API调用中读取数据?

我希望能够跟踪,同时通过查看该用户所做的所有API调用浏览我的网站的用户的行为。所有的API调用都基于存储在SQL数据库中的数据。

我还例如要检查传递给我的搜索API的所有关键字最有搜索词的列表。

我想过使用Oozie的,但没有任何人有任何其他建议?

+0

你所说的“由用户做出API调用”是什么意思?用户是否通过正常的网页HTTP请求导航,还是他们调用您提供的后端API服务? –

+0

他们正在调用我提供的后端API服务。例如,如果他们搜索“熊猫”,我的API将搜索数据库并返回所有相关结果。 – noor

+0

您是否在某处记录了这样的请求,例如原始日志文件或数据库中?你还存储所有的搜索请求?请注意,像EMR这样的服务需要从某个地方读取数据,并且您的应用程序负责存储该数据以便进行分析。随意编辑您的问题以提供更多详细信息。 –

回答

1

有在你的数据库分析数据的几个选项。

普通SQL实验

我建议用你的数据库正常的SQL语句开始寻找数据感兴趣什么实验。如果您拥有数百万条记录,这可能会稍微慢一些,但可以让您充分灵活地使用数据。

亚马逊EMR

一旦你已经确定的分析类型要定期运行(如每天或每周),你可以启动一个EMR集群进行分析。请注意,这是一个功能强大但相当复杂的工具集,充分利用它的时间可能并不值得。

您可以启动一个瞬态集群,这意味着一旦集群完成所给的工作,集群就会终止。因此,群集可以通过预定的API调用触发并自动终止。

亚马逊雅典娜

亚马逊雅典娜提供了一个SQL接口存储在亚马逊S3的数据。常见的用例是分析S3中的日志文件,而不必将它们加载到数据库中。雅典娜功能强大并且可以并行处理数据,以便快速返回结果。

底线:从简单的开始。玩现有的数据来找出你想要发现的东西。然后优化。

+0

如果我想创建一个批量GET请求到我的API,我该怎么做?然后我会将数据保存到我的s3,对不对? – noor

+0

对不起,但我不明白你的问题。如果你创建了API,它完全在你的管理之下。 –