yarn

0热度

1回答

我有一个简单的java程序，它包装了distcp以便通过hadoop集群复制文件。我可以从IDE和hadoop cli中成功运行它。我想要一个jsp Web应用程序，以便人们可以使用Web界面来与我的程序进行交互。我创建了一个具有所有依赖关系的胖jar并将其部署到我的web应用程序中。现在的问题是，每当程序要提交DistCp使用工作它提供了以下错误： java.io.IOException

1热度

1回答

在pyspark中的映射器内导入错误

我正在处理一个与networkx有关的EMR YARN群集。我想运行映射器内的networkx包内的算法之一，并收到错误说没有模块名称“装饰器”，并立即失败，与下面的错误：文件“./networkx- 1.11-py2.7.egg/networkx/utils/init .py“，第2行，在文件”./networkx-1.11-py2.7.egg/networkx/utils/decorat

0热度

1回答

SparkLauncher以用户为配置单元运行spark-submit with yarn-client

尝试运行masterURL=yarn-client的spark工作。使用SparkLauncher 2.10。 java代码封装在nifi处理器中。 Nifi目前以root身份运行。当我做纱线应用列表时，我看到USER = root的火花作业开始。我想用USER = hive运行它。以下是我的SparkLauncher代码。 Process spark = new SparkLauncher()

1热度

1回答

Spark的动态资源分配如何在YARN上工作（关于NodeManagers）？

我们假设我有4个NM，并且我已经在yarn-client模式下配置了spark。然后，我将动态分配设置为true，以根据工作负载自动添加或删除执行程序。如果我理解正确，每个Spark执行器都作为Yarn容器运行。那么，如果我加入更多NM，执行器的数量会增加吗？如果我在Spark应用程序运行时删除NM，那么该应用程序会发生什么？我可以根据其他指标添加/删除执行程序吗？如果答案是肯定的，那么有一

1热度

1回答

在纱线上的Spark Streaming中的Beam GroupByKey

我目前正试图在sparkner上运行带有窗口和groupbykey的束流管道。在本地，它的工作原理完全，但在纱模式，似乎GroupByKey.create()下来都流（没有最终HBase的突变）后，不会触发窗格。所有ParDos成组之前成功记录消息（从卡夫卡获得）。窗口化策略与默认触发： Window.<String>into(FixedWindows.of(Duration.standa

1热度

1回答

为什么JPS不显示进程正在运行？

我使用的Apache的Hadoop的二进制运行Hadoop和我一直在使用下面的命令启动DFS，纱和先生守护程序： start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver 在这之后一切正常，即，我能看到HDFS UI ，资源amanger UI，作业历史UI等这里是JPS命令输出： sh-3.2# jps

6热度

2回答

蜂巢查询过慢，未能

我有“按组”查询在蜂巢执行一个txt表 select day,count(*) from mts_order where source="MTS_REG_ORDER" group by day; 但它表明： Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apach

0热度

2回答

蜂巢插入覆盖表

您好我有源表下面的“状态表” date status name 2017-06-22 true 1.tar 2017-06-22 true 2.tar 2017-06-22 false 3.tar 2017-06-22 true 4.tar 2017-06-22 false 5.tar 2017-06-21 false 6.tar 2017-06-21

0热度

1回答

YARN：无法找到或加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

当试图在Fedora上执行任何M/R2作业时，我得到此异常。 Hadoop 2.7.3和2.8.0具有相同的问题。这包括Hive。 [[email protected] hadoop]$ yarn classpath /opt/hadoop/hadoop-2.7.3/conf /opt/hadoop/hadoop-2.7.3/conf /opt/hadoop/hadoop-2.7.3/con

0热度

1回答

木地板警告在Amazon EMR

填补蜂巢中的MapReduce的日志我正在上存储为蜂巢地板上TEZ表自定义UDAF。我们的Hive作业在YARN上运行，所有这些都在Amazon EMR中设置。但是，由于我们所使用的地板数据是使用较早版本的Parquet（1.5）生成的，因此我收到了一条警告，说明YARN日志的填充并导致磁盘在作业完成之前空间不足。这是警告： PM警告：org.apache.parquet.CorruptStat