yarn

1热度

1回答

我在我们的服务器中使用2个节点的HDP 2.5。我在配置单元中成功运行查询。突然间，我正面临与源表映射，将列添加到我的新表中，通过下面的查询;同时在配置单元视图中运行此查询。我该如何解决这个问题？ create table New_table As select distinct ab.id, ab.first_name, ab.middle_name, ab.last_name,

1热度

1回答

如何配置YARN以在经过一段时间后重新启动Spark驱动程序？

我有一个用Java编写的Spark应用程序。我想重新启动驱动程序，如果它没有在预定义的时间间隔内完成流批处理。在不执行定时器的情况下从驱动程序代码中抛出异常时，yarn按预期重新启动应用程序。当试图添加计时器（需要在不同于驱动程序的线程中）并在分配时间过后抛出异常时，纱线不会重新启动驱动程序。我的猜测是异常需要从驱动程序线程中抛出。有什么办法可以达到这个目的吗？

0热度

1回答

如何访问纱线群中的火花事件日志

我在集群模式下的纱线群集上运行火花。我可以通过yarn logs命令访问日志，但我没有看到任何事件日志。我wouldlike这样的事情在这里： {"Event":"SparkListenerTaskEnd","Stage ID":39,"Stage Attempt ID":0,"Task Type":"ShuffleMapTask","Task End Reason":{"Reason":"S

1热度

1回答

在火花集群模式下运行齐柏林飞艇

我正在使用本教程spark cluster on yarn mode in docker container在飞行模式下的火花集群中启动zeppelin。然而我卡在第4步。我找不到在我的码头集装箱conf/zeppelin-env.sh进行进一步的配置。我试图把这些配置文件夹的齐柏林，但现在成功了。除此之外，齐柏林笔记本电脑也未在localhost：9001上运行。我对分布式系统非常陌生，如果有

-2热度

1回答

在群集上运行速度非常慢的Spark程序

我想在群集中运行我的PySpark具有2个节点和1个主节点（全部具有16 Gb RAM）。我用下面的命令运行了我的火花。火花提交--master纱--deploy模式集群--name “Pyspark” --num执行人40 --executor-2G内存CD.py 但是我的代码运行非常缓慢，解析8.2 GB数据需要将近1小时。然后我试着改变我的配置YARN。我改变了以下属性。 yarn.sc

0热度

1回答

纱线簇上的spark scala csv export

我有一个5个节点的簇，部署了YARN。 2个Namenodes和3个Datanodes。虽然我的代码是在spark中提交的。我试图将数据导出到csv，但是当我这样做时，数据会被导出到2个datanodes，并且两个导出文件夹中都会有不同的内容。一个会有_SUCCESS文件，另一个会有导出的csv（part- *）。我的应用程序结束了一个空白路径，因为有时具有_SUCCESS文件的节点和运行应用程序

0热度

1回答

如何设置vcores为sqoop工作

如何sqoop aquires vcores执行。我提交了一个包含4个mapper的sqoop作业，即使有大约50个vcore，应用程序也从1个vcore开始。所以没有任何parelllization。这是一个导入到文本文件的sqoop作业。这些是关于vcrore分配的纱线配置参数。 sqoop作业如何获取要执行的vcore？从大多数数据库源平行 <property> <name>yarn.sc

0热度

1回答

如何运行的火花应用

你好我试图运行像纱日志纱应用-list 纱应用-kill 我试图命令纱纱线命令使用yarnclient但面临的问题。 package com.ankush import java.io.Serializable import org.apache.hadoop.yarn.api.records.ApplicationId import org.apache.hadoop.yarn.cl

0热度

1回答

在边缘节点运行hadoop jar命令

我是hadoop的新手，并且在edgeNode（http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/）上运行hadoop jar命令时遇到以下问题。 hadoop jar ${JAR_FILE} {CLASS_NAMEWithPackage}。看看下面问题（S）为什么罐子在 Djava.

0热度

1回答

Hadoop JobHistory只显示失败的作业

我正在尝试监视示例MapReduce应用程序的作业，该应用程序称为在The Definitive Hadoop书中查找最大温度。在Hadoop-2.6的默认安装和配置中，该应用程序可以很好地工作，即它可以计算每年的最高温度。但经过我扩展mapred-site.xml中和纱线的site.xml像这些的配置： <property> <name> mapreduce.framework.nam