我需要同时处理大量文件(数千个不同的文件,每个文件的平均大小为2MB)。并行处理多个文件 - 复制文件或通过NFS读取?
所有的信息存储在一个(1.5TB)的网络硬盘驱动器上,并将由大约30个不同的机器处理。为了提高效率,每台机器都会读取(和处理)不同的文件(有数千个需要处理的文件)。
每台机器 - 在从1.5TB硬盘驱动器上的“传入”文件夹中读取文件后 - 将处理信息并准备好将处理后的信息输出回到处理过的信息文件夹1.5TB的驱动器。每个文件的处理信息与输入文件的平均大小大致相同(每个文件大约2MB)。
什么是更好的事:
(1)对于每一个加工机器中号,复制将被中号被加工成其本地硬盘驱动器,然后将所有文件中读取&过程在机器上本地文件M。 (2)不是将文件复制到每台机器,而是每台机器直接(使用NFS)访问“传入”文件夹,并从那里读取文件,然后在本地处理它们。
哪个想法更好?当有人做这样的事情时,有没有“做”和“不做”?
如果30台机器同时读取(或写入)信息到同一个网络驱动器是一个问题,我大多好奇吗? (注意:现有文件只能被读取,不能被附加/写入;新的文件将从头开始创建,因此不存在多次访问同一文件的问题...)。我应该期待什么瓶颈?
(我使用Linux,Ubuntu的10.04 LTS上的所有机器,如果一切事宜)
谢谢布拉德。 – user3262424 2010-12-16 01:36:38