我有100台机器的网络,全部运行Ubuntu Linux。将数据写入单个机器的最快方法?
在连续(流式)的基础上,机器X
是“进料”与一些实时数据。我需要编写一个python脚本来获取数据作为输入,将它加载到内存中,处理它,然后将其保存到磁盘。
这是一个很大的数据,因此,我会非常想在内存中的数据拆分(使用一些逻辑),只是发送它的件每一个人计算机,在最快的方式。每台计算机都会接受它的数据,处理它并将其写入本地磁盘。
假设我有数据的Python中的容器(可能是一个列表,词典等),已经处理过的和分裂成碎片。将每个“部分”数据发送到每台机器的最快方式是什么?
你有没有读过MapReduce?这完全是为了这个。不幸的是,我不能给你一个python特定的答案。但是我认为阅读这本书会对你有所帮助。 – 2011-04-04 16:47:34