hadoop

    0热度

    1回答

    使用brew安装hadoop,现在想在intelliJ IDEA中运行hadoop作业。如何设置环境并解决依赖关系?

    1热度

    1回答

    我想在nano表中使用当前时间戳在nano秒中创建一列。我怎么能在插入数据时做到这一点?

    0热度

    1回答

    我做了POC与的Hadoop 2.9.0作为分布式文件存储系统,因此已经建立了多节点群集安装有1个NameNode和重新启动后4复制因子为2的数据节点(包括主节点)。 现在,经过一系列复制操作后,我决定停止其中一个数据节点(slave2)。然后我使用hdfs dfs -rm -skipTrash命令清除了几GB的数据,而slave2仍然关闭。 后来我重新启动了我停止的slave2 datanode

    0热度

    1回答

    HDFS存储结构化的&非结构化数据。热线& IMPALA使我们能够编写SQL查询,然后将其转换为MapReduce。用户如何了解存储数据的模式或者如何根据存储的数据形成这些表格?

    1热度

    1回答

    作为一些背景,我们有2个目前用作生产和开发的簇。作为其中的一部分,我们正在将生产集群中的文件(使用hadoop distcp -update)从生产过程生成(即,它也可以作为灾难恢复集群)复制到开发集群。 的Hadoop版本是在两个群集相同的:Hadoop的2.6.0-cdh5.12.1 然而,发展集群不仅具有实时集群的存储容量的约65%。为了解决这个问题,我们有一个默认的复制因子3,用于活动,2

    0热度

    2回答

    由于我在其中一个字段中有特殊字符,因此我想使用较小的值作为分隔符。 Hive对分隔符(\ 0)可以正常工作,但sqoop会因NoSuchElement异常而失败。看起来它不会将分隔符检测为\ 0。 这是我的配置单元的一个sqoop脚本的样子。请任何帮助。 CREATE TABLE SCHEMA.test ( name CHAR(20), id int, dte_rep

    0热度

    1回答

    我试图实现服务器端分页。数据库光标看起来像是一个很好的方法。 Impala是否支持像关系数据库那样的database cursors?该文件没有明确提及它是否存在。

    -1热度

    1回答

    我正在一个项目中接收大约10个文件,每个文件包含大小为200GB的文件。我的项目要求是从每个文件中提取数据,并与其他文件进行连接并提取数据。 E.G像我有文件1.txt我有帐户ID和我有文件2.txt,我有帐户ID和帐户名称。根据第一个文件的帐户ID我需要从第二个文件提取数据。 这样我需要对10个文件中的每一个执行操作并创建最终的输出文件。 我目前正在Java中这是真正花时间的过程。大约需要4到5

    0热度

    1回答

    我想在我的Mac在博客http://zhongyaonan.com/hadoop-tutorial/setting-up-hadoop-2-6-on-mac-osx-yosemite.html 博主建议来执行这些命令中发现的指令之后伪分布式模式安装Hadoop的2.6: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.

    1热度

    1回答

    我正在使用Azure Data Lake上传文件,但仍想将文本文件内容添加到现有的Data Lake文本文件中。是否有任何选项可用于在C#?中使用Web HDFS REST API附加文本文件数据。 我是指这个链接enter link description here 代码:我可以参考上面的链接获得附加网址。但是,我如何使用这个URL并使用c#追加文件? private const string