2016-03-08 44 views
-1

一位朋友和我一起正在开发一个机器学习项目。我们已经设法收集了大约5,000个tex的文档(我们希望很快能够达到10万个左右)。我们有一个python脚本,用于在每个文档上执行一些文本操作,提取tex代码的特定部分,编译部分,将编译后的部分转换为裁剪后的PNG图像,并搜索转换后的完整tex的PNG以供裁剪使用OpenCV的图像。代码需要30秒到2分钟的时间才能完成,因此我们真的需要加快速度。AWS ec2使用乳胶和OpenCV运行python程序

我的任务是获得对计算机集群的访问权限,并弄清楚如何在这样的集群上实现我们的代码。有人建议我考虑使用AWS,所以我已经创建了一个帐户,并且一直在试图弄清楚在过去几个小时如何使用EC2。我在正确的轨道上,还是有其他一些AWS或其他部分完全适合我的任务?

无论我使用什么,它都必须能够访问我们的代码中的各种python库以及pdflatex和全套tex包。这在EC2上可能吗?我几乎不知道如何去使用EC2(我设法启动了一些实例,但是如何使用它们来运行我的脚本?我是否需要更改我的Python脚本以适应并行处理,或者EC2以某种方式照顾它?是否就像启动一个linux实例并安装我需要的程序一样简单?就像我在任何其他Linux机器上那样)。没有任何教程立即有用,而且我仍然不确定EC2是否有能力做我正在寻找的东西。任何建议表示赞赏。

回答

1

我通常不会回答这种问题,但它听起来像你正在做一些有趣的事情。所以让我们去吧

Q1。

“我们有我们运行上的每个文件做一些文字 操作,提取TEX代码的特定部分,编译 零件,转换编译的部分裁剪PNG图像,搜索一个python脚本 转换的全TEX使用OpenCV的裁切影像的PNG ..我们 真的需要加快步伐”

也许你可能分裂100,000个文档成10份,并成立了处理软件的 10个实例并行运行。

要设置10个相同的实例,有许多方法,但其中一种更简单的方法是根据需要设置一台机器,拍摄快照,制作AMI,然后使用AMI启动更多副本。

将搜索结果放入某种类型的中央数据库可能会有额外的步骤。

我对OpenCV一无所知,但有一些建议,对于G3实例类型(这有一个GPU),它可能会更快。 Google针对“在AWS上打开简历”

Q2。

“试图找出如何使用EC2在过去的几个小时。我是在 在正确的轨道,或者是有AWS的其他部分或别的东西 完全,这将是更适合我的任务?“

EC2是一个通用的虚拟机,因此,如果您已经有上 一些其他的机器很容易将它移动到EC2 EC2有很多功能,但一个运行的代码,你可能会发现有意思的是”点实例”,这些都是短暂的,但便宜(通常为10的价格的百分比)实例启动

Q3。

不管我使用,它能够访问我们的代码不同的Python库 和到pdflatex和全套tex packa水电站。在EC2上可以使用 吗?

是的,他们将点子安装或从包就像任何其他系统

Q4安装。

我该如何使用它们来运行我的脚本?我是否需要更改我的python 脚本以适应并行处理,或者EC2是否照顾 以某种方式?是否像启动一个Linux实例一样简单,并且安装我需要的程序,我会在其他任何Linux 机器上安装?

如上所述,您的基本任务看起来很好,您可能需要一个步骤来对结果进行整理。是的,它基本上与任何其他Linux机器相同