2015-10-20 163 views
0

我在现有Hadoop集群上设置R。到目前为止,我已将R rms和相关库软件包安装在群集的一个节点(EDGE节点)部分中,并且按预期工作。 Rrpms安装在群集的所有服务器上,还是只安装在所有服务器上的库目录 (本例中为/usr/lib64/R/library)?Hadoop集群上的R安装

+0

你的目标是? – piccolbo

+0

目标是通过R shell _(rmr,rhive,rhdfs应该可访问)执行hadoop MR作业。用户只能登录到EDGE节点。 –

回答

0

对于rmr,您需要随处安装,对于rhdfs您不需要,对于rhive我不知道。安装意味着R rms或同等和必要的依赖关系。就同​​步lib dirs而言,我尝试了类似的方法来简化rmr2的部署,但我们(客户端和我一致)都拉住了插件,因为它看起来非常脆弱(取决于所有库是完全相同的) 。它在一个非常受控制的环境中工作,但我们同步整个事情,而不仅仅是图书馆。

+0

感谢Piccolbo。根据你的陈述“_but但我们同步整个事情,不仅仅是图书馆。” - 你的意思是..所有的R核心rpms安装在所有节点上,并且库在所有节点上同步。是吗? ? –

+0

不确定你的意思是“核心”。我们只是在R_HOME下发布了整个子树。您仍然可以在rmr2的0安装分支中找到该原型(现在已过时)。 – piccolbo

+0

我只是碰到一篇文章,解释如何创建可移植的二进制文件:https://pmelsted.wordpress.com/2015/10/14/building-binaries-for-bioinformatics/你也可以考虑这个http:///fumodibit.blogspot.com/2013/04/modifying-r-to-obtain-relocatable.html以获得R_HOME的灵活性,这可能需要在群集上部署 – piccolbo