我正在动态评估一些数据库模式。由于有大量的模式,在一台PC上评估它们是不现实的。我想通过评估一个工作节点上的每个模式来使用Spark来完成这项工作。评估程序将如此。 (1)为每个模式创建测试负载,并将所有测试负载存储在Hadoop文件系统或工作节点的本地文件系统中。测试加载只是在.SQL文件中插入和选择语句,但是大小很大。 (2)从文件系统读取测试负载,并将语句提供给mysql以使用JDBC执行。我会记录在同一时间花费的时间。Spark如何在一个工作节点上执行一个地图动作?
我们可以将评估过程作为“e”函数来处理,它将数据库模式作为输入,并输出评估的时间消耗。我们可以将该函数映射到模式数组,以获得一系列评估时间。
有没有办法在Spark中实现这一点?由于我必须在一个工作节点上运行该功能,因此问题是:是否有办法在一个工作节点上运行每个映射操作?
谢谢大家!
感谢你真是太棒了!经过一段时间的思考之后,我也认为它在某种意义上不是一个经典的地图缩减工作。我遇到的主要问题是用一台PC评估这些模式将花费15天时间,这是不能接受的。我需要一种方法来缩短评估时间。我想也许2是最简单的方法。谢谢! – 2014-11-24 15:44:18