yarn

2热度

2回答

纱线正在使用虚拟核心的概念来管理CPU资源。我会问使用虚拟核心有什么好处，YARN使用vcore的原因是什么？

0热度

1回答

我们有两个cloudera 5.7.1群集，一个使用Kerberos进行安全保护，另一个使用Kerberos进行安全保护。是否有可能在访问存储在安全集群中的配置单元表时使用不安全的YARN集群运行Spark？（Spark版本是1.6）如果是这样，你能否提供一些解释我如何配置它？更新：我想解释一下我的背后涉及的最终目标。我们的主要安全集群被大量使用，我们的工作无法获得足够的资源在合理的时间

2热度

1回答

作业记录webui-19888在hadoop2.7.2多节点显示工作完成后注意到

我在hadoop2.7.2中用2个从站运行一个工作后，终端上可以看到结果，但是在master：19888/jobhistory里什么也没有。我上传了图片和我的配置文件。 job history webui 19888 这里是我的配置文件。 core.site.xml <property> <name>fs.default.name</name> <value>hdfs://ma

2热度

2回答

为什么MapReduce映射内存大于簇上的块大小？

在Hadoop Yarn中，下面是观察值： a）对于每个InputSplit或块，将会触发一个新的地图。 b）群集的典型块大小为128 MB。 c）在大多数群集中，MapReduce.map.memory.mb的配置大于1 GB。其实对于Cloudera的块大小的建议是128 MB和MapReduce.map.memory.mb为1 GB 当块大小只有128 MB，为什么我们需要1 GB分配给映

1热度

1回答

在Spark中有太多的执行者存在吗？

我正在处理一个Spark/YARN集群，该集群限制了我可以分配给8GB内存和每个容器1个内核的资源，但是我可以分配数百个甚至数千个执行程序来运行我的应用程序。但是由于驱动程序有类似的资源限制（8GB内存，4核心），我担心太多执行程序可能会压倒驱动程序并导致超时。是否有经验法则来确定驱动程序内存和内核的大小以处理大量执行程序？

1热度

1回答

在hadoop 2.7.2中找到每个任务的容器：8088

在hadoop 2.7.2上运行一个任务后，有两个slave，我想知道每个任务的容器在master中：8088我们可以看到最大值和最低分配。当我点击应用程序.... 004时，它显示这张图片，它显示了memmory0和vcore0。我想知道如何找到容器的属性。

-2热度

1回答

单击历史记录项表示无法在Hadoop中2.7.2

当我点击在Hadoop的接口的History项目连接，它显示Unable to connect页。

0热度

1回答

从HDFS目录读取文件并使用Python在Spark中创建RDD

我有一些文本文件，我想使用这些文件创建一个RDD。文本文件存储在“FOLDER_1”和“Folder_2”和这些文件夹中存储的文件夹“text_data” 当文件被存储在本地存储，下面的代码工作： #Reading the corpus as an RDD data_folder = '/home/user/text_data' def read_data(data_folder):

0热度

1回答

如何将非jar文件分发到纱线节点？

我试图在应用程序级别可见性下将*.tar.gz文件分发到纱线节点。在以下目录中的hadoop我的节点由节点管理器生成 /tmp/hadoop-vikram/nm-local-dir/usercache/vikram/appcache/application_1490062699498_0005/container_1490062699498_0005_01_000003/ 我看到下 /tmp

2热度

1回答

在Spark上查询Hive以获得最佳性能的正确方法是什么？

火花新手在这里。我在Hive中有一张非常大的表格（大约130M条记录，180列），我试图用Spark将它打包成实木复合地板文件。我正在使用默认的EMR集群配置，6 * r3.xlarge实例来提交我用Python编写的Spark应用程序。然后我在YARN上以集群模式运行它，通常给驱动程序提供少量内存（几千兆），其余部分给执行程序。这里是我的代码，这样做： from pyspark import