hadoop2

    0热度

    2回答

    我是Hadoop和pig的新手。根据问题我能够深入研究,直到下面的脚本,但我怎么能比较个人的薪水与他的部门的平均工资。以下是写入得到各部门的平均工资脚本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int); B = GRO

    2热度

    1回答

    蜂巢外壳起步,但每当我在炮弹击中任何命令,说 蜂巢>节目数据库; 我收到以下错误: 失败:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:了java.lang.RuntimeException:无法实例org.apache.hadoop.hive.ql .metadata.SessionHiveMetaStore

    0热度

    1回答

    我有问题从YARN上运行的Spark群集以外的机器提交spark-submit远程作业。 Exception in thread "main" java.net.ConnectionException: Call from remote.dev.local/192.168.10.65 to target.dev.local:8020 failed on connection exception:

    0热度

    1回答

    我需要实现一个用例,我需要用来自任何源系统的hdfs文件夹中的最新文件更新配置单元表。我没有在这里使用sqoop。 我应该定期从源系统接收更新的文件到特定的HDFS位置(比如/tmp/emp.csv)。我已经在配置单元中创建了托管/内部表,并且第一次手动将数据加载到该表中。 因此,我的最新员工表(在配置单元中创建,仓库位于默认位置 -/user/hive/warehouse)将拥有emp.csv文

    0热度

    1回答

    我下面一些例子来尝试使用以下,以获得DistributedFileSystem,但是我发现下面的返回废弃的错误 FileSystem fs=FileSystem.get(conf); DistributedFileSystem hdfs = (DistributedFileSystem) fs; 异常在线程“主要” java.lang.ClassCastException: org.apac

    0热度

    1回答

    取名字空间信息 无法启动备用的NameNode。我从官方文档验证了我的配置。

    1热度

    2回答

    我有点困惑YARN和MR2之间。他们一样吗?我已经看到YARN作为在某些文档中运行分布式应用程序的平台,而MapReduce就是这样的分布式应用程序,那是什么意思?这是一个由程序员构建的MapReduce应用程序(例如:wordcount程序)吗? 我再次看到“编写自己的YARN应用程序”,那是什么意思?一个wordcount程序属于哪个类别,一个YARN应用程序或一个MR2应用程序? 请相关问题

    1热度

    1回答

    有人可以解释一下使用HCatalog在pigScript中使用蜂巢的哪个文件格式是有效的。 我想知道哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表和基础文件是一个顺序文件。 80天的数据读取创建了大约70,000个非常庞大的映射器。试图改变地图拆分大小为2GB,并没有减少很多。 因此,而不是顺序文件寻找其他选项,这将减少映射器的数量。每个数据的数据大小为9GB。 有任何

    -1热度

    1回答

    我想构建一个运行sqoop作业的Java应用程序,执行一些hdfs操作并更改配置单元中的元数据。 为了实现这一切,我创建了一个maven项目,但是我一直遇到依赖项问题。 有人可以给我一个例子pom.xml,所以我可以开始写我的应用程序? 谢谢!

    1热度

    1回答

    我第一次尝试是: CREATE TABLE t1 ( a string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE ; 但是,其结果是: CREATE TABLE t1 ( a string) ROW FORMAT DELIMITED