hdfs

0热度

1回答

我正在Hadoop旁边运行一个大型的Spark作业（大约20TB存储到HDFS）。 Spark控制台显示作业已完成，但Hadoop仍在运行作业，无论是在控制台还是日志仍在吐出“正在运行”。我应该等多久，直到我应该担心？

0热度

1回答

我有一个使用Hadoop处理1000个小文件的场景。然后，Hadoop作业的输出将被用作非Hadoop算法的输入。在当前的工作流程中，读取数据，转换为序列文件，处理，然后生成的小文件以序列文件的形式输出到HDFS。但是，非Hadoop算法无法理解序列文件。因此，我编写了另一个简单的Hadoop作业来从序列文件中读取结果文件的数据，并创建可供非Hadoop算法使用的最终小文件。这里的问题是，对于最

0热度

1回答

Hadoop当有空间可用时，设备上没有剩余空间

我有5台Linux机群。有3个数据节点和一个主站。现在，每个数据节点上大约有50％的hdfs存储可用。但我运行一个MapReduce工作，这是失败，每个系统df -h跟随误差 2017-08-21 17:58:47,627 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for blk_6835454799524976171_361561

1热度

2回答

从Kafka读取并写入实木复合地板的hdfs

我是BigData生态系统和入门的新手。我看了几篇文章有关使用火花流，但想知道是否可以使用火花的工作，而不是流从卡夫卡读读卡夫卡的话题？如果是的话，你们可以帮我指出一些可以让我开始的文章或代码片段。我的问题的第二部分是实木复合地板的格式写入HDFS。一旦我从卡夫卡读到，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入parquet文件。这是正确的做法。任何帮助表示赞赏。

0热度

1回答

使用Hadoop查询github数据

我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据（4-5 TB）注入HDFS？另外，他们的数据库是实时的。是否有可能使用诸如pig，hive，hbase之类的工具来处理hadoop中的实时数据？

0热度

1回答

jps命令列表只有jps但仍然可以使用HDFS服务

我目前正在为Hadoop使用5节点群集。如果我在Namenode上执行jps命令，我只能看到Jps进程正在运行。 [[email protected] ~]$ /usr/jdk64/jdk1.8.0_60/bin/jps 16641 Jps Hive使用HDFS进行存储。所以，在这种情况下，我的选择查询应该会失败并出现连接错误。但是，我可以使用查询获取数据。 [[email protecte

2热度

1回答

HBase表大小在一段时间后下降

我们在将数据存储在HBase中时遇到了一个问题。我们采取了以下步骤： Spark应用程序正在使用hfiles作为结果（结果数据大小：180 G）处理Big csv文件（大小：20 G）。通过使用命令创作表的：从创建hfiles 'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} 数据被表的装载后，用命令hbase org.apache.ha

0热度

1回答

我想sqoop数据使用sqoop导入作业进入配置单元列分区表。我们应该怎么做？

我有一个配置单元表分区在国家列。我的RDBMS列如下： id int, fname varchar(45), lname varchar(45), email varchar(45), password varchar(45), street varchar(45), city varchar(45), state varchar(45), zipcode varchar(45), c_time

0热度

1回答

Hadoop的日志不具有完整信息

我使用Hadoop的Apache 2.7.1集群其中包括4个数据节点和两个名字节点的原因是其高可部署在CentOS 7 并开始在工作2017年1月8日，我们知道，日志将每个服务生成，并让我们在当前日志例如 hadoop-root-datanode-dn1.log hadoop-root-datanode-dn2.log 其中hadoop_root是用户登录IAM与我的问题是：在DN

-1热度

1回答

camus or gobblin which is preferred

您能否帮我设置camus或gobblin来存储来自Kafka的HDFS消息。一个实例可能很棒。 Gobblin仍处于孵化阶段，camus已逐步淘汰。所以最好使用哪一个。我下载gobblin跑gobblin-standalone.sh的开始，但我得到的错误环境变量GOBBLIN_JOB_CONFIG_DIR没有设置！。