hadoop

    2热度

    1回答

    我有带spark(1.6.1),hdfs和hive(2.1)的纱线簇。直到今天,我的工作流程都可以正常工作几个月(没有任何代码/环境变化)。我开始像这样得到错误: org.apache.hive.com.esotericsoftware.kryo.KryoException: Encountered unregistered class ID: 21 Serialization trace:

    0热度

    3回答

    删除^ A和\ n我得到一个临时table.I的数据是从临时表中选择所有列的数据,并插入到基座table.After插入到基表文件看起来像下面。 val1^Aval2^Aval3^A\N^Aval4^A\N 但我需要的数据是这样的。 val1 val2 val3 val4 ^必须从文件中删除,\ N应该用空格替换。 我想在蜂巢中实现这一点,任何帮助都很感激。

    0热度

    2回答

    在Hadoop中,我可以将应用程序指向一个路径,然后映射器将单独处理这些文件。我必须这样处理它,因为我需要解析文件名和路径,以便与直接在映射器中加载的其他文件相匹配。 在pyspark中,将路径传递给SparkContext的textFile将创建一个RDD。有没有办法在Spark/pyspark中复制相同的Hadoop行为?

    0热度

    2回答

    最近我们升级到Spark 1.6并尝试将SparkQL用作Hive的默认查询引擎。 Spark Gateway角色与HiveServer2添加在同一台计算机上,启用了Spark On Yarn Service。然而,当我运行一个查询类似以下内容: SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser

    0热度

    1回答

    我的基础数据使用HIVE输出格式(org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat) 尝试使用以读取该数据写入本地Java地图降低 byte[] b = value.getBinary(value.getType().getFieldIndex(field), 0).getBytes(); HiveDecimal hd

    1热度

    1回答

    我正在尝试编写一个过滤器UDF,它将输入作为元组,并返回元组,但是当我在Gruntt shell中定义函数时,我得到错误消息解析失败,我在哪里做错了这里 REGISTER /home/filterUDF.jar; DEFINE filDist 'FilterDistrictUdf/FilterDistrict' package FilterDistrictUdf; import ja

    2热度

    1回答

    有用例,我们要从S3中读取具有JSON的文件。然后,基于特定的JSON节点值,我们希望将数据分组并将其写入S3。 我能够读取数据,但无法找到关于如何根据JSON密钥对数据进行分区然后上传到S3的很好示例。任何人都可以提供任何示例或指向我的教程,可以帮助我用这个用例吗? 我有我的数据的架构创建数据帧后: root |-- customer: struct (nullable = true) |

    0热度

    1回答

    有一个文件夹mydir对其子目录和文件具有777权限。 每当新文件添加到此文件夹时,我必须运行chmod -R 777/mydir。 所以我试图用像许多命令: - Hadoop的FS -chmod -R乌戈+ RWX/MYDIR不会改变任何东西 Hadoop的FS -ll -d/MYDIR和hadoop fs ll -d/mydir两者都导致未知命令 hadoop fs -tune2fs -l/m

    -1热度

    1回答

    我试图在我的Cloudera VM 5.10中安装Scala IDE 4.7,它分别预先配置了JDK 1.7,Spark 1.6版本。 因此,我通过卸载Cloudera提供的位于/usr/java/jdk1.7的默认JDK,在/ opt/location中安装了jdk 1.8。我在.bash_profile中添加了Java环境变量。我成功地安装了Scala IDE。 但现在Hadoop的所有生态系

    0热度

    1回答

    我尝试了所有可能的方法,通过导入所有可能的库并检查所有与saveAstextFile或saveAsSequenceFile相关的问题的答案帮助。因此启动一个新的线程。 我得到一个错误“错误:试图保存一个RDD到HDFS我下面下面的步骤值saveAsTextFile不是scala.collection.Map[String,Long] countResult.saveAsTextFile("tmp/