yarn

    2热度

    2回答

    纱线正在使用虚拟核心的概念来管理CPU资源。我会问使用虚拟核心有什么好处,YARN使用vcore的原因是什么?

    0热度

    1回答

    我们有两个cloudera 5.7.1群集,一个使用Kerberos进行安全保护,另一个使用Kerberos进行安全保护。 是否有可能在访问存储在安全集群中的配置单元表时使用不安全的YARN集群运行Spark? (Spark版本是1.6) 如果是这样,你能否提供一些解释我如何配置它? 更新: 我想解释一下我的背后涉及的最终目标。我们的主要安全集群被大量使用,我们的工作无法获得足够的资源在合理的时间

    2热度

    1回答

    我在hadoop2.7.2中用2个从站运行一个工作后,终端上可以看到结果,但是在master:19888/jobhistory里什么也没有。我上传了图片和我的配置文件。 job history webui 19888 这里是我的配置文件。 core.site.xml <property> <name>fs.default.name</name> <value>hdfs://ma

    2热度

    2回答

    在Hadoop Yarn中,下面是观察值: a)对于每个InputSplit或块,将会触发一个新的地图。 b)群集的典型块大小为128 MB。 c)在大多数群集中,MapReduce.map.memory.mb的配置大于1 GB。 其实对于Cloudera的块大小的建议是128 MB和MapReduce.map.memory.mb为1 GB 当块大小只有128 MB,为什么我们需要1 GB分配给映

    1热度

    1回答

    我正在处理一个Spark/YARN集群,该集群限制了我可以分配给8GB内存和每个容器1个内核的资源,但是我可以分配数百个甚至数千个执行程序来运行我的应用程序。 但是由于驱动程序有类似的资源限制(8GB内存,4核心),我担心太多执行程序可能会压倒驱动程序并导致超时。 是否有经验法则来确定驱动程序内存和内核的大小以处理大量执行程序?

    1热度

    1回答

    在hadoop 2.7.2上运行一个任务后,有两个slave,我想知道每个任务的容器在master中:8088我们可以看到最大值和最低分配。 当我点击应用程序.... 004时,它显示这张图片,它显示了memmory0和vcore0。 我想知道如何找到容器的属性。

    -2热度

    1回答

    当我点击在Hadoop的接口的History项目连接,它显示Unable to connect页。

    0热度

    1回答

    我有一些文本文件,我想使用这些文件创建一个RDD。 文本文件存储在“FOLDER_1”和“Folder_2”和这些文件夹中存储的文件夹“text_data” 当文件被存储在本地存储,下面的代码工作: #Reading the corpus as an RDD data_folder = '/home/user/text_data' def read_data(data_folder):

    0热度

    1回答

    我试图在应用程序级别可见性下将*.tar.gz文件分发到纱线节点。 在以下目录中的hadoop我的节点由节点管理器生成 /tmp/hadoop-vikram/nm-local-dir/usercache/vikram/appcache/application_1490062699498_0005/container_1490062699498_0005_01_000003/ 我看到下 /tmp

    2热度

    1回答

    火花新手在这里。 我在Hive中有一张非常大的表格(大约130M条记录,180列),我试图用Spark将它打包成实木复合地板文件。 我正在使用默认的EMR集群配置,6 * r3.xlarge实例来提交我用Python编写的Spark应用程序。然后我在YARN上以集群模式运行它,通常给驱动程序提供少量内存(几千兆),其余部分给执行程序。这里是我的代码,这样做: from pyspark import