2009-12-06 117 views
5

我正试图解决我们是否应该在工作中尝试使用Condor或Sun Grid Engine(或可能是其他方法)。Condor,Sun Grid Engine或其他东西?

我们经常有很多未使用的WinXp工作站。希望我们可以使用LAN唤醒,运行我们所有的工作,然后自动关闭。我们主要运行Matlab,Java或Python仿真来进行monte-carlo或参数探索。

由于我对Condor的知识有限,听起来像使用vm universe可能是一种快速处理快照而不必修改现有代码的便捷方式。

SGE还是别的什么比秃鹰更适合这种工作?

回答

3

我会从Condor开始。它对Windows有很好的支持,而且当某些机器上的作业可以运行时,新版本内置支持以非常可配置的方式发送唤醒唤醒功能。它也可以根据用户定义的策略关闭机器。

3

对于专用硬件,我会使用Grid Engine。

对于可能正在使用的机器上的时钟周期清除,我会去Condor。

对于固定期间(例如过夜和周末)有专门访问权限的硬件,我可能仍然会使用Condor,但可以说服自己使用Grid Engine。

0

我只试过Condor,试图建立它是一种痛苦。如果你需要所有的时钟周期,你可以完全利用,与Condor一起。

我正要试试SGE,我会告诉你它是怎么回事。然而在我的公司里,人们有设置SGE的经验,所以我可能会说SGE更容易。

1

最近我不得不选择condor和SGE作为客户项目。我是有利于SGE(因为我更熟悉的环境),但神鹰终于赢了,因为:

  • 客户基础设施的Windows导向,和SGE解决方案需要一个Unix或Linux机器的中央管理器,+在计算安装MS服务UNIX主机上的Windows神鹰
  • 支持和安装过程就简单多了。

但是,您不能在Windows上使用Condor最有趣的功能:检查点不可用,也不能使用Condor特定的IO。我没有使用VM Universe,因此我无法对此方面发表评论。

4

SGE不是真的是支持窗口。它附带all kinds of caveats and missing bits on Windows

现在我已经运行多年神鹰池,这是一个极好的HTPC设置两个周期窃取和专用的,永远在线的硬件,在Linux和Windows机器。最近添加的Rooster daemon可让您在各作业周期之间让机器进入睡眠状态,并在池中出现新作时将其唤醒。他们也有一个积极和非常有帮助的支持社区。点检是Windows上唯一不可用的Condor功能。其他一切都在那里。随着VM Universe的增加,点校验越来越少用。真的:要成功使用点检查,您需要能够重新链接整个代码堆栈。所以,如果你正在运行Matlab作业,即使在Linux上,检查点也不可能实现。

如果您有关于让Condor在Windows上运行的具体问题,我很乐意回答他们,分享我的经验。我在全球的4个游泳池中运行Condor,在所有游泳池中共有大约1500台专用机器,并且大约有1000台左右的用户可以随时捐赠的台式机器。

0

SGE不存在......它是OGE,而且非常昂贵。跟Condor一起去吧。