我是scala/flink/spark的新手,会有几个问题。 现在scala正在使用flink。我使用正确的框架?
数据流的总体思路是这样的:
CSV文件 - >弗林克 - > elastic->弗林克(过程数据) - > MongoDB的 - >的Tableau
有其分号日志文件的数量巨大分隔。 我想将这些文件写入elasticsearch作为我的数据库。 (这已经有效)
现在需要各种分析(f.e.一致性报告/生产率报告)。 对于那些报告,需要不同种类的列。
这个想法是通过flink从elasticsearch中导入基础数据,编辑数据并将其保存到mongodb中,因此数据可视化可以使用tableau完成。
编辑将包括增加像平日的其他列,并启动/不同的状态
// +-------+-----+-----+
// | status|date |time |
// +-------+-----+-----+
// | start | 1.1 |7:00 |
// | run_a | 1.1 |7:20 |
// | run_b | 1.1 |7:50 |
// +-------+-----+-----+
// +-------+-------+-------+----+
// | status|s_time |e_time |day |
// +-------+-------+-------+----|
// | start | 7:00 |7:20 | MON|
// | run_a | 7:20 |7:50 | MON|
// | run_b | 7:50 |nextVal| MON|
// +-------+-------+-------+----+
结束时间了一些研究之后,我发现,弗林克不给使用弹性作为数据源的可能性。 有一个github项目https://github.com/mnubo/flink-elasticsearch-source-connector,但它已经超过一年没有更新。这似乎不能正常工作,因为它让我少点击,然后我会用相同的查询获取kibana。 有没有其他的选择?为什么这不是默认支持的?
那些表格转换可以用flink进行吗?用flink做它们有意义吗? (因为我很难实现它们)
我是否在这个项目中使用了正确的框架?我是否应该改用spark,因为它提供了更多的功能/社区项目?
星火应该是个不错的选择。火星更加稳定和丰富的图书馆感谢flink。 –