hdfs

    0热度

    1回答

    我正在Hadoop旁边运行一个大型的Spark作业(大约20TB存储到HDFS)。 Spark控制台显示作业已完成,但Hadoop仍在运行作业,无论是在控制台还是日志仍在吐出“正在运行”。 我应该等多久,直到我应该担心?

    0热度

    1回答

    我有一个使用Hadoop处理1000个小文件的场景。然后,Hadoop作业的输出将被用作非Hadoop算法的输入。在当前的工作流程中,读取数据,转换为序列文件,处理,然后生成的小文件以序列文件的形式输出到HDFS。但是,非Hadoop算法无法理解序列文件。因此,我编写了另一个简单的Hadoop作业来从序列文件中读取结果文件的数据,并创建可供非Hadoop算法使用的最终小文件。 这里的问题是,对于最

    0热度

    1回答

    我有5台Linux机群。有3个数据节点和一个主站。现在,每个数据节点上大约有50%的hdfs存储可用。但我运行一个MapReduce工作,这是失败,每个系统df -h跟随误差 2017-08-21 17:58:47,627 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for blk_6835454799524976171_361561

    1热度

    2回答

    我是BigData生态系统和入门的新手。 我看了几篇文章有关使用火花流,但想知道是否可以使用火花的工作,而不是流从卡夫卡读读卡夫卡的话题? 如果是的话,你们可以帮我指出一些可以让我开始的文章或代码片段。 我的问题的第二部分是实木复合地板的格式写入HDFS。 一旦我从卡夫卡读到,我想我会有一个rdd。 将此rdd转换为数据帧,然后将数据帧写入parquet文件。 这是正确的做法。 任何帮助表示赞赏。

    0热度

    1回答

    我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?

    0热度

    1回答

    我目前正在为Hadoop使用5节点群集。如果我在Namenode上执行jps命令,我只能看到Jps进程正在运行。 [[email protected] ~]$ /usr/jdk64/jdk1.8.0_60/bin/jps 16641 Jps Hive使用HDFS进行存储。所以,在这种情况下,我的选择查询应该会失败并出现连接错误。但是,我可以使用查询获取数据。 [[email protecte

    2热度

    1回答

    我们在将数据存储在HBase中时遇到了一个问题。我们采取了以下步骤: Spark应用程序正在使用hfiles作为结果(结果数据大小:180 G)处理Big csv文件(大小:20 G)。通过使用命令 创作表的:从创建hfiles 'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} 数据被表的装载后,用命令hbase org.apache.ha

    0热度

    1回答

    我有一个配置单元表分区在国家列。 我的RDBMS列如下: id int, fname varchar(45), lname varchar(45), email varchar(45), password varchar(45), street varchar(45), city varchar(45), state varchar(45), zipcode varchar(45), c_time

    0热度

    1回答

    我使用Hadoop的Apache 2.7.1集群其中包括4个数据节点和两个名字节点的原因是其高可 部署在CentOS 7 并开始在工作2017年1月8日 ,我们知道,日志将每个服务 生成,并让我们在当前日志例如 hadoop-root-datanode-dn1.log hadoop-root-datanode-dn2.log 其中hadoop_root是用户登录IAM与 我的问题是: 在DN

    -1热度

    1回答

    您能否帮我设置camus或gobblin来存储来自Kafka的HDFS消息。一个实例可能很棒。 Gobblin仍处于孵化阶段,camus已逐步淘汰。所以最好使用哪一个。 我下载gobblin跑gobblin-standalone.sh的开始,但我得到的错误 环境变量GOBBLIN_JOB_CONFIG_DIR没有设置! 。