hadoop2

1热度

1回答

HDFS：其中FSImage＆编辑日志存储

我有一个问题是否FSImage &编辑日志存储在一些共享的NFS for Hadoop 2.0或两个活动&被动名称节点有fsimage &副本本地编辑日志？

0热度

1回答

如何计算地图数量并减少需要设置？

想要设置地图数量并减少从属服务器。理想情况下应该在从属服务器上配置多少个地图？

0热度

1回答

应用程序服务器日志进程

我的客户端需要处理部署在群集上的后端REST Based App服务器的应用程序（Tomcat）服务器日志文件。 Clint希望从具有不同参数的数据中生成“访问”和“频率”报告。我最初的计划是从App服务器日志中获取这些数据 - >使用kafka推送到Spark Streaming并处理数据 - >将这些数据存储到HIVE - >使用zeppelin找回那些处理过的集中日志数据并根据客户要求生成

1热度

1回答

Hadoop安装和配置：在同一主机上并排多个版本

我们可以在伪分布式模式下在同一个系统上安装不同版本的Hadoop吗？其实我想探索不同版本的hadoop-1.x和hadoop-2.x的功能，并且我在两个运行Linux的系统上配置了hadoop-1.x和hadoop-2.x。有没有什么办法可以在同一台机器上进行配置？

2热度

1回答

控制地图的数量并减少产生的作业？

我想了解如何可以缩小作业开始执行任务以及如何控制MR作业的数量。假设我在HDFS中有1TB文件，并且我的块大小为128MB。如果我将输入分割大小指定为256MB，则对于此1TB文件上的MR任务，将开始多少个Map和Reduce作业。根据我的理解，这取决于分割大小。即Map作业的数量=文件/分割大小的总大小，并且在这种情况下，其结果为1024 * 1024 MB/256 MB = 4096。所以

0热度

1回答

选择不适用于外部表格的查询

我们有一小排Greenplum集群。我们安装了Hadoop。并尝试使用GPHDFS协议访问外部表。 ENV GPDB VERSION 4.3.10 HDP VERSION 2.3.6 Java版本1.8 acroos主/段获取错误 prod=# select count (*) from schemaname.filename; ERROR: external table gphdfs pro

2热度

2回答

fs.rename（新路径（rawFileName），新路径（processFileName））不起作用

我正在开发基于Scala的Apache Spark实现，用于将数据从远程位置导入HDFS，然后将数据从HDFS导入到Hive表。用我的第一次火花的工作，我已经onboarded数据/文件到HDFS在一个位置说 - HDFS：//sandbox.hortonworks.com：8020 /数据/分析/生/文件夹让我们考虑一下，在上载CT_Click_Basic.csv和CT_Click_Basi

1热度

1回答

集群应该有多少个节点来分析3 TB的数据？应该如何设计硬件架构

说明：该数据是在SQL Server数据库中，我们需要分析这些数据与大数据的帮助，在这方面的任何帮助，将不胜感激

1热度

1回答

如何提交配置单元sql查询作为配置单元中的先生作业

我已经将MR配置为配置单元执行引擎的CDH-5.9集群。我有一个名为“users”的配置表格，有50行。每当我执行如下select * from users工作正常查询： hive> select * from users; OK Adam 1 38 ATK093 CHEF Benjamin 2 24 ATK032 SERVANT Charles 3 45 ATK107 C

0热度

1回答

有没有办法检查Hadoop文件是否已经打开写入？

多台Java实例正在我的机器上运行，我想检查Hadoop文件是否已在任何实例中以写（fs.create(file) or fs.append(file)）模式打开。我尝试了Hadoop文件的FileStatus，没有找到任何东西。有什么办法可以检查Hadoop文件是否已经打开写入？一种方法是尝试再次创建/附加文件并捕获异常，但我有数千个文件，并且不想尝试每个文件。另外，如果create/ap