2010-10-06 37 views
1

我们有一个盒子,每天有数TB的数据(10-20TB),其中驱动器上的每个文件都是从兆字节到千兆字节的任意位置。分布式错误处理复制TB的数据

我们希望将所有这些文件发送到一组“比萨饼盒”,在那里它们将消耗和处理文件。

我似乎无法找到任何内置的处理除distcp(hadoop)以外的数据量的内容。 Robocopy /等不会。

任何人都知道可以处理这种类型的委托(在比萨饼盒中共享工作)的解决方案,并具有可靠的文件传输?

+0

你的问题不清楚和不完整。你有网络每天处理20TB吗?你提到Hadoop并用Hadoop标记这个问题。为什么Hadoop不是你问题的答案? – 2010-10-06 20:50:04

回答

2

看看水槽http://archive.cloudera.com/cdh/3/flume/UserGuide.html

水槽是一个分布式的,可靠的,并且可用于高效地收集,汇总和移动大量日志数据的服务。它具有基于流式数据流的简单而灵活的架构。它具有可靠的可靠性机制以及许多故障转移和恢复机制,具有强大的容错性和容错能力。该系统集中管理,并允许智能动态管理。它使用允许在线分析应用程序的简单可扩展数据模型。

要安装它https://wiki.cloudera.com/display/DOC/Flume+Installation

0

前面已经提到的Hadoop是因为它正是为这类大型数据所做的回答。您可以创建Hadoop集群并在其中存储信息,并使用这些框的核心通过使用map/reduce来分析信息。