hdfs

    0热度

    1回答

    我需要实现一个用例,我需要用来自任何源系统的hdfs文件夹中的最新文件更新配置单元表。我没有在这里使用sqoop。 我应该定期从源系统接收更新的文件到特定的HDFS位置(比如/tmp/emp.csv)。我已经在配置单元中创建了托管/内部表,并且第一次手动将数据加载到该表中。 因此,我的最新员工表(在配置单元中创建,仓库位于默认位置 -/user/hive/warehouse)将拥有emp.csv文

    0热度

    1回答

    我在解密&对大文件执行一些基本操作时遇到gpg解密问题。解密后的正常解密文件为60G &,其膨胀至450G。 解密,然后rowcount(wc -l)只在HDFS层内完成;以下是代码片段 rowCount=`hdfs dfs -cat ${hdfsDir}/{fileName} | decrypt | wc -l` 上面的“解密”应该由gpg --decrypt ...命令替换。我没有写在这里

    1热度

    1回答

    是否有可能从Apache Spark中的IBM GPFS(全局并行文件系统)中读取数据? 我的目的是用这样的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算采用的是Hortonworks数据平台的环境。我读过一些articles, deploying IBM Spectrum Scale File System,说你可以

    0热度

    1回答

    我的Hadoop 2.8.1 可配置HDFS-site.xml中 <configuration> # Add the following inside the configuration tag <property> <name>dfs.data.dir</name> <value>/app/dfs/name/data</value> <final>true

    1热度

    1回答

    我读过很多存储在HDFS中的小文件,因为大量的小文件意味着大量的对象Hadoop NameNode内存。 但是由于每个块都作为一个对象存储在命名节点中,它对于一个大文件有何不同?无论您是从内存中的单个文件存储1000个块还是1000个文件存储1000个块,使用的NameNode内存量是否相同? 对于地图工作类似的问题。由于它们在块上运行,如果块是小文件还是大块文件,它们有什么关系?

    0热度

    1回答

    我需要将文件file1.txt从本地复制到hadoop,我想在hadoop中使用不同名称(如“test.txt”)的“file1.txt”。 Hoow能实现吗?

    0热度

    1回答

    package com.Main; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;

    0热度

    2回答

    通常我们在一个文本文件中输入到java文件(比如简单的字数问题)。相反,现在我有100个csv文件,我想给作为我的java代码的输入(所有文件不能简单地合并为一个文件)。试图预测给定100个股票的最大/最小股票波动率,因此每个csv文件是唯一的。 那么,如何将csv文件的整个文件夹作为java程序的输入流。

    0热度

    1回答

    我做了POC与的Hadoop 2.9.0作为分布式文件存储系统,因此已经建立了多节点群集安装有1个NameNode和重新启动后4复制因子为2的数据节点(包括主节点)。 现在,经过一系列复制操作后,我决定停止其中一个数据节点(slave2)。然后我使用hdfs dfs -rm -skipTrash命令清除了几GB的数据,而slave2仍然关闭。 后来我重新启动了我停止的slave2 datanode

    0热度

    1回答

    我在HDFS上有一个路径为/user/xyz/ data的目录 我无法访问它。他们的 我已经试过 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。 什么是访问它的最佳方