hadoop

    0热度

    2回答

    下面是我的数据框和代码 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代码 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

    0热度

    1回答

    我想将文件从ftp服务器传输到hdfs。这个方法我试过:FTP TO HDFS,演示代码如下: Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(new URI(ftpCon

    0热度

    2回答

    echo $JAVA_HOME 给我/usr/lib/jvm/java-8-oracle 和我在/usr/local/hadoop/etc/hadoop/hadoop-env.sh有export JAVA_HOME= /usr/lib/jvm/java-8-oracle。 然而,当我运行/usr/local/hadoop/bin/hadoop我得到了以下错误: /usr/local/hadoo

    0热度

    1回答

    我正在学习hadoop,在学习时会混淆两个名词空间,其次是元数据。 我至今对元数据的研究是元数据是namenode服务器的一部分。它关于HDFS中所有文件的信息,复制因子,datanode的数据块,文件权限等。这些元数据存储在一个名为fsimage的文件中。请纠正我是否有错 二是命名空间,关于命名空间是我唯一知道的是它只是一个文件夹结构,甚至我不知道这一点。你们能与我分享这些条款吗?我对Names

    0热度

    1回答

    我有一个小星火计划使用Scala的,我希望它打包成一个可执行的脂肪罐子,在文件中设置的配置:src/main/resource/localconfig.properties,所以我在src/main/scala/com.let.App新的org.apache.hadoop.fs.Path(String pathString)一个实例: val Path = new Path("localconfi

    1热度

    1回答

    我是Hive新手;所以,我不确定公司如何使用Hive。让我给你一个场景,看看我在使用Hive的概念上是否正确。 假设我的公司希望保留一些Web服务器日志文件,并且始终能够搜索并分析日志。因此,我创建了一个表格列,其中对应于日志文件中的列。然后我将日志文件加载到表中。现在,我可以开始查询数据。因此,随着数据在未来的日期发布,我只是不断地将数据添加到此表中,因此我始终将我的日志文件作为Hive中的表格

    -1热度

    1回答

    如果输入文件是量:1,1,2,2,3,4,4,4,5,5,5,5,6,6,6,然后的MapReduce的输出应为(即,该组唯一整数{1,2,3,4,5,6}的大小)。 我需要实施上述的帮助。我知道我们可以通过发送每个数字与map()中的空值来过滤出重复项,然后类似地将密钥与reduce()中的空值输出到结果文件/控制台。 但是如果我直接需要得到不同数字的数量,我该如何处理这个问题? 我目前的实现是

    0热度

    1回答

    我有这样的RDD: [('anger', 166), ('lyon', 193), ('marseilles_1', 284), ('nice', 203), ('paris_2', 642), ('paris_3', 330), ('troyes', 214), ('marseilles_2', 231), ('nantes', 207), ('orlean', 196),

    0热度

    1回答

    Mahout的XmlInputFormat可以处理gzip数据而不会覆盖任何方法吗?我一直在试图解析被压缩的wikipedia xml数据,到目前为止一直不成功。 我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中,或者是特定于其他输入格式的,并且不是Mahout的输入格式。但也许我错过了一些东西。 注:我已经能够解析XML,但我从来没有找到明确的答

    1热度

    1回答

    我在oracle中有一个表(表名是TRCUS),其中包含客户的详细信息,根据年份&月进行分区。 分区名甲骨文: PERIOD_JAN_13, PERIOD_FEB_13, PERIOD_JAN_14, PERIOD_FEB_14等 现在我想这个表中的数据导入到直接使用SQOOP HIVE。 Sqoop作业应该创建一个配置单元表,根据oracle表分区动态创建分区,然后将数据导入到配置单元中;进入相