hadoop

0热度

2回答

下面是我的数据框和代码 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代码 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

0热度

1回答

为什么Hadoop FTPFileSystem.listStatus（路径路径）不起作用？

我想将文件从ftp服务器传输到hdfs。这个方法我试过：FTP TO HDFS，演示代码如下： Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(new URI(ftpCon

0热度

2回答

的Ubuntu的Hadoop找不到JAVA_HOME

echo $JAVA_HOME 给我/usr/lib/jvm/java-8-oracle 和我在/usr/local/hadoop/etc/hadoop/hadoop-env.sh有export JAVA_HOME= /usr/lib/jvm/java-8-oracle。然而，当我运行/usr/local/hadoop/bin/hadoop我得到了以下错误： /usr/local/hadoo

0热度

1回答

Hadoop中名称空间与元数据之间的区别？

我正在学习hadoop，在学习时会混淆两个名词空间，其次是元数据。我至今对元数据的研究是元数据是namenode服务器的一部分。它关于HDFS中所有文件的信息，复制因子，datanode的数据块，文件权限等。这些元数据存储在一个名为fsimage的文件中。请纠正我是否有错二是命名空间，关于命名空间是我唯一知道的是它只是一个文件夹结构，甚至我不知道这一点。你们能与我分享这些条款吗？我对Names

0热度

1回答

如何从jar中的属性构造HDFS的路径？

我有一个小星火计划使用Scala的，我希望它打包成一个可执行的脂肪罐子，在文件中设置的配置：src/main/resource/localconfig.properties，所以我在src/main/scala/com.let.App新的org.apache.hadoop.fs.Path(String pathString)一个实例： val Path = new Path("localconfi

1热度

1回答

什么是Hive常见用例？

我是Hive新手;所以，我不确定公司如何使用Hive。让我给你一个场景，看看我在使用Hive的概念上是否正确。假设我的公司希望保留一些Web服务器日志文件，并且始终能够搜索并分析日志。因此，我创建了一个表格列，其中对应于日志文件中的列。然后我将日志文件加载到表中。现在，我可以开始查询数据。因此，随着数据在未来的日期发布，我只是不断地将数据添加到此表中，因此我始终将我的日志文件作为Hive中的表格

-1热度

1回答

MapReduce的：给定号码的文件，输出不同的/唯一号码

如果输入文件是量：1,1,2,2,3,4,4,4,5,5,5,5,6,6,6，然后的MapReduce的输出应为（即，该组唯一整数{1,2,3,4,5,6}的大小）。我需要实施上述的帮助。我知道我们可以通过发送每个数字与map()中的空值来过滤出重复项，然后类似地将密钥与reduce()中的空值输出到结果文件/控制台。但是如果我直接需要得到不同数字的数量，我该如何处理这个问题？我目前的实现是

0热度

1回答

加入特定行的RDD

我有这样的RDD： [('anger', 166), ('lyon', 193), ('marseilles_1', 284), ('nice', 203), ('paris_2', 642), ('paris_3', 330), ('troyes', 214), ('marseilles_2', 231), ('nantes', 207), ('orlean', 196),

0热度

1回答

Mahout的XmlInputFormat处理gzip压缩文件而不重写？

Mahout的XmlInputFormat可以处理gzip数据而不会覆盖任何方法吗？我一直在试图解析被压缩的wikipedia xml数据，到目前为止一直不成功。我听说Hadoop能够自动处理gzip文件，但我现在假设它包含在TextInputFormat类中，或者是特定于其他输入格式的，并且不是Mahout的输入格式。但也许我错过了一些东西。注：我已经能够解析XML，但我从来没有找到明确的答

1热度

1回答

Sqoop从oracle动态创建hive分区表并导入数据

我在oracle中有一个表（表名是TRCUS），其中包含客户的详细信息，根据年份&月进行分区。分区名甲骨文： PERIOD_JAN_13， PERIOD_FEB_13， PERIOD_JAN_14， PERIOD_FEB_14等现在我想这个表中的数据导入到直接使用SQOOP HIVE。 Sqoop作业应该创建一个配置单元表，根据oracle表分区动态创建分区，然后将数据导入到配置单元中;进入相