一位朋友和我一起正在开发一个机器学习项目。我们已经设法收集了大约5,000个tex的文档(我们希望很快能够达到10万个左右)。我们有一个python脚本,用于在每个文档上执行一些文本操作,提取tex代码的特定部分,编译部分,将编译后的部分转换为裁剪后的PNG图像,并搜索转换后的完整tex的PNG以供裁剪使用OpenCV的图像。代码需要30秒到2分钟的时间才能完成,因此我们真的需要加快速度。AWS ec2使用乳胶和OpenCV运行python程序
我的任务是获得对计算机集群的访问权限,并弄清楚如何在这样的集群上实现我们的代码。有人建议我考虑使用AWS,所以我已经创建了一个帐户,并且一直在试图弄清楚在过去几个小时如何使用EC2。我在正确的轨道上,还是有其他一些AWS或其他部分完全适合我的任务?
无论我使用什么,它都必须能够访问我们的代码中的各种python库以及pdflatex和全套tex包。这在EC2上可能吗?我几乎不知道如何去使用EC2(我设法启动了一些实例,但是如何使用它们来运行我的脚本?我是否需要更改我的Python脚本以适应并行处理,或者EC2以某种方式照顾它?是否就像启动一个linux实例并安装我需要的程序一样简单?就像我在任何其他Linux机器上那样)。没有任何教程立即有用,而且我仍然不确定EC2是否有能力做我正在寻找的东西。任何建议表示赞赏。