hadoop2

    1热度

    1回答

    我有一个问题是否FSImage &编辑日志存储在一些共享的NFS for Hadoop 2.0或两个活动&被动名称节点有fsimage &副本本地编辑日志?

    0热度

    1回答

    想要设置地图数量并减少从属服务器。 理想情况下应该在从属服务器上配置多少个地图?

    0热度

    1回答

    我的客户端需要处理部署在群集上的后端REST Based App服务器的应用程序(Tomcat)服务器日志文件。 Clint希望从具有不同参数的数据中生成“访问”和“频率”报告。 我最初的计划是从App服务器日志中获取这些数据 - >使用kafka推送到Spark Streaming并处理数据 - >将这些数据存储到HIVE - >使用zeppelin找回那些处理过的集中日志数据并根据客户要求生成

    1热度

    1回答

    我们可以在伪分布式模式下在同一个系统上安装不同版本的Hadoop吗? 其实我想探索不同版本的hadoop-1.x和hadoop-2.x的功能,并且我在两个运行Linux的系统上配置了hadoop-1.x和hadoop-2.x。有没有什么办法可以在同一台机器上进行配置?

    2热度

    1回答

    我想了解如何可以缩小作业开始执行任务以及如何控制MR作业的数量。 假设我在HDFS中有1TB文件,并且我的块大小为128MB。 如果我将输入分割大小指定为256MB,则对于此1TB文件上的MR任务,将开始多少个Map和Reduce作业。根据我的理解,这取决于分割大小。即Map作业的数量=文件/分割大小的总大小,并且在这种情况下,其结果为1024 * 1024 MB/256 MB = 4096。所以

    0热度

    1回答

    我们有一小排Greenplum集群。我们安装了Hadoop。并尝试使用GPHDFS协议访问外部表。 ENV GPDB VERSION 4.3.10 HDP VERSION 2.3.6 Java版本1.8 acroos主/段 获取错误 prod=# select count (*) from schemaname.filename; ERROR: external table gphdfs pro

    2热度

    2回答

    我正在开发基于Scala的Apache Spark实现,用于将数据从远程位置导入HDFS,然后将数据从HDFS导入到Hive表。 用我的第一次火花的工作,我已经onboarded数据/文件到HDFS在一个位置说 - HDFS://sandbox.hortonworks.com:8020 /数据/分析/生/文件夹 让我们考虑一下,在上载CT_Click_Basic.csv和CT_Click_Basi

    1热度

    1回答

    说明:该数据是在SQL Server数据库中,我们需要分析这些数据与大数据 的帮助,在这方面的任何帮助,将不胜感激

    1热度

    1回答

    我已经将MR配置为配置单元执行引擎的CDH-5.9集群。我有一个名为“users”的配置表格,有50行。每当我执行如下select * from users工作正常查询: hive> select * from users; OK Adam 1 38 ATK093 CHEF Benjamin 2 24 ATK032 SERVANT Charles 3 45 ATK107 C

    0热度

    1回答

    多台Java实例正在我的机器上运行,我想检查Hadoop文件是否已在任何实例中以写(fs.create(file) or fs.append(file))模式打开。 我尝试了Hadoop文件的FileStatus,没有找到任何东西。 有什么办法可以检查Hadoop文件是否已经打开写入? 一种方法是尝试再次创建/附加文件并捕获异常,但我有数千个文件,并且不想尝试每个文件。另外,如果create/ap