2013-07-24 43 views
1

我是新来的Cloudera,我在我的系统中安装了Cloudera的成功,我有两个疑问,Cloudera安装怀疑?

  • 考虑机器的一些节点已经在使用Hadoop的一些数据,我们可以安装Cloudera的使用现有的Hadoop无对存储hadooop的数据进行了任何更改或修改。

  • 我在我的机器上安装了Cloudera,我还有另外三台机器将这些机器添加为群集,我想知道,我是否希望在将这些机器添加为群集之前在这三台机器中安装cloudera,或者我们可以添加节点作为群集,而不在该特定节点上安装cloudera ?.

在此先感谢任何人,请提供一些关于上述问题的信息。

+0

需要澄清的第一question- - 您拥有的Hadoop中的一些节点的不同分布,你想改变这种分配Cloudera的? –

+0

谢谢@JtheRocker, 是如果我在某些节点中有不同的hadoop分布,我可以将这些分布更改为clodera而不会丢失数据吗? – Prabhu

回答

1

Cloudera Manual

可以从CDH3 (或任何Apache的Hadoop)簇连接到CDH4簇通过 使用工具迁移数据拷贝出的数据并行地,如DistCp使用工具 以CDH4提供。

Other sources

关于你提到的第二个问题,

manual page

重要

还是那句话: 在开始之前,你需要决定:

作为一般规则: NamerNode和JobTracker运行于除非 群集很大(超过几十个节点),并且主机(或主机)不应该 运行辅助NameNode(如果使用),DataNode或TaskTracker 服务。在大型集群中,特别重要的是, Secondary NameNode(如果使用)在NamerNode的独立机器上运行。群集中除主控主机之外的每个节点都应该运行DataNode和TaskTracker服务。

此外,如果您使用Cloudera Manager,它将自动执行所有必要的设置,即在群集中的节点上安装必要的选定组件。

题外话:我有一个坏习惯,没有正确引用手册。有它看清楚,它回答了我们所有的问题

+0

Thanks @SuvP,我可以通过cloudera将我的机器作为群集添加新机器吗? 其实新鲜的机器没有cdh。 – Prabhu

2

答案的问题 -

。如果你想从现有的Apache分布迁移到鼎晖,你可以follow this link

摘录:

概述

迁移过程确实需要的Linux 系统管理的适度理解。你应该在开始之前制定计划。您 将重新启动一些关键服务,例如名称节点和 作业跟踪器,因此有些停机时间是必需的。考虑到群集上的 数据的价值,您还需要小心地采取任何关键任务数据集以及名称节点 元数据的备份。

如果您从基于Apache Software Foundation版本 (早于0.20)的 版本的Hadoop升级,则备份数据最为重要。

.CDH二进制需要安装和使用在所有的节点配置成具有基于CDH簇启动和运行。

+1

谢谢@JtheRocker,我会检查... – Prabhu

0

回答第二个问题, 可以直接添加,只需安装一些前提条件,如openssh-clients和firewalls以及java。

这些机器(现有节点,新的三个节点)应该接受相同的用户名和密码(或),你应该使用密码的ssh设置为这些主机..

你应该连接到互联网,同时加入的节点。

我希望它会帮助你:)