分布式错误处理复制TB的数据

我们有一个盒子，每天有数TB的数据（10-20TB），其中驱动器上的每个文件都是从兆字节到千兆字节的任意位置。分布式错误处理复制TB的数据

我们希望将所有这些文件发送到一组“比萨饼盒”，在那里它们将消耗和处理文件。

我似乎无法找到任何内置的处理除distcp（hadoop）以外的数据量的内容。 Robocopy /等不会。

任何人都知道可以处理这种类型的委托（在比萨饼盒中共享工作）的解决方案，并具有可靠的文件传输？

2010-10-06 Jay R

你的问题不清楚和不完整。你有网络每天处理20TB吗？你提到Hadoop并用Hadoop标记这个问题。为什么Hadoop不是你问题的答案？ – 2010-10-06 20:50:04

水槽是一个分布式的，可靠的，并且可用于高效地收集，汇总和移动大量日志数据的服务。它具有基于流式数据流的简单而灵活的架构。它具有可靠的可靠性机制以及许多故障转移和恢复机制，具有强大的容错性和容错能力。该系统集中管理，并允许智能动态管理。它使用允许在线分析应用程序的简单可扩展数据模型。

2010-10-07 00:53:43

前面已经提到的Hadoop是因为它正是为这类大型数据所做的回答。您可以创建Hadoop集群并在其中存储信息，并使用这些框的核心通过使用map/reduce来分析信息。

2010-10-13 12:41:30 khmarbaise

回答