hadoop

2热度

1回答

org.apache.hive.com.esotericsoftware.kryo.KryoException：遇到未注册的类ID：21

我有带spark（1.6.1），hdfs和hive（2.1）的纱线簇。直到今天，我的工作流程都可以正常工作几个月（没有任何代码/环境变化）。我开始像这样得到错误： org.apache.hive.com.esotericsoftware.kryo.KryoException: Encountered unregistered class ID: 21 Serialization trace:

0热度

3回答

如何从文件中使用蜂巢

删除^ A和\ n我得到一个临时table.I的数据是从临时表中选择所有列的数据，并插入到基座table.After插入到基表文件看起来像下面。 val1^Aval2^Aval3^A\N^Aval4^A\N 但我需要的数据是这样的。 val1 val2 val3 val4 ^必须从文件中删除，\ N应该用空格替换。我想在蜂巢中实现这一点，任何帮助都很感激。

0热度

2回答

可能需要多个输入文件，而不是在pyspark中创建一个RDD？

在Hadoop中，我可以将应用程序指向一个路径，然后映射器将单独处理这些文件。我必须这样处理它，因为我需要解析文件名和路径，以便与直接在映射器中加载的其他文件相匹配。在pyspark中，将路径传递给SparkContext的textFile将创建一个RDD。有没有办法在Spark/pyspark中复制相同的Hadoop行为？

0热度

2回答

Hive上的Spark进度条陷入10％

最近我们升级到Spark 1.6并尝试将SparkQL用作Hive的默认查询引擎。 Spark Gateway角色与HiveServer2添加在同一台计算机上，启用了Spark On Yarn Service。然而，当我运行一个查询类似以下内容： SET hive.execution.engine=spark; INSERT OVERWRITE DIRECTORY '/user/someuser

0热度

1回答

转换镶木FIXED_LEN_BYTE_ARRAY到本地Java地图上DECIMAL减少

我的基础数据使用HIVE输出格式（org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat）尝试使用以读取该数据写入本地Java地图降低 byte[] b = value.getBinary(value.getType().getFieldIndex(field), 0).getBytes(); HiveDecimal hd

1热度

1回答

猪错误：解析查询失败

我正在尝试编写一个过滤器UDF，它将输入作为元组，并返回元组，但是当我在Gruntt shell中定义函数时，我得到错误消息解析失败，我在哪里做错了这里 REGISTER /home/filterUDF.jar; DEFINE filDist 'FilterDistrictUdf/FilterDistrict' package FilterDistrictUdf; import ja

2热度

1回答

将Apache Spark中的列按列分区到

有用例，我们要从S3中读取具有JSON的文件。然后，基于特定的JSON节点值，我们希望将数据分组并将其写入S3。我能够读取数据，但无法找到关于如何根据JSON密钥对数据进行分区然后上传到S3的很好示例。任何人都可以提供任何示例或指向我的教程，可以帮助我用这个用例吗？我有我的数据的架构创建数据帧后： root |-- customer: struct (nullable = true) |

0热度

1回答

如何将新文件权限设置为hdfs中的父文件夹？

有一个文件夹mydir对其子目录和文件具有777权限。每当新文件添加到此文件夹时，我必须运行chmod -R 777/mydir。所以我试图用像许多命令： - Hadoop的FS -chmod -R乌戈+ RWX/MYDIR不会改变任何东西 Hadoop的FS -ll -d/MYDIR和hadoop fs ll -d/mydir两者都导致未知命令 hadoop fs -tune2fs -l/m

-1热度

1回答

为Hadoop生态系统重新配置Java环境变量

我试图在我的Cloudera VM 5.10中安装Scala IDE 4.7，它分别预先配置了JDK 1.7，Spark 1.6版本。因此，我通过卸载Cloudera提供的位于/usr/java/jdk1.7的默认JDK，在/ opt/location中安装了jdk 1.8。我在.bash_profile中添加了Java环境变量。我成功地安装了Scala IDE。但现在Hadoop的所有生态系

0热度

1回答

错误：值saveAsTextFile不是scala.collection.Map的成员[String，Long]

我尝试了所有可能的方法，通过导入所有可能的库并检查所有与saveAstextFile或saveAsSequenceFile相关的问题的答案帮助。因此启动一个新的线程。我得到一个错误“错误：试图保存一个RDD到HDFS我下面下面的步骤值saveAsTextFile不是scala.collection.Map[String,Long] countResult.saveAsTextFile("tmp/