hdfs

0热度

1回答

我需要实现一个用例，我需要用来自任何源系统的hdfs文件夹中的最新文件更新配置单元表。我没有在这里使用sqoop。我应该定期从源系统接收更新的文件到特定的HDFS位置（比如/tmp/emp.csv）。我已经在配置单元中创建了托管/内部表，并且第一次手动将数据加载到该表中。因此，我的最新员工表（在配置单元中创建，仓库位于默认位置 -/user/hive/warehouse）将拥有emp.csv文

0热度

1回答

gpg解密块大小限制

我在解密&对大文件执行一些基本操作时遇到gpg解密问题。解密后的正常解密文件为60G &，其膨胀至450G。解密，然后rowcount（wc -l）只在HDFS层内完成;以下是代码片段 rowCount=`hdfs dfs -cat ${hdfsDir}/{fileName} | decrypt | wc -l` 上面的“解密”应该由gpg --decrypt ...命令替换。我没有写在这里

1热度

1回答

在Apache Spark中使用的HDFS-GPFS连接器

是否有可能从Apache Spark中的IBM GPFS（全局并行文件系统）中读取数据？我的目的是用这样的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算采用的是Hortonworks数据平台的环境。我读过一些articles, deploying IBM Spectrum Scale File System，说你可以

0热度

1回答

如何将文件从本地笔记本电脑放到远程HDFS？

我的Hadoop 2.8.1 可配置HDFS-site.xml中 <configuration> # Add the following inside the configuration tag <property> <name>dfs.data.dir</name> <value>/app/dfs/name/data</value> <final>true

1热度

1回答

为什么我应该避免在Hadoop HDFS中存储大量小文件？

我读过很多存储在HDFS中的小文件，因为大量的小文件意味着大量的对象Hadoop NameNode内存。但是由于每个块都作为一个对象存储在命名节点中，它对于一个大文件有何不同？无论您是从内存中的单个文件存储1000个块还是1000个文件存储1000个块，使用的NameNode内存量是否相同？对于地图工作类似的问题。由于它们在块上运行，如果块是小文件还是大块文件，它们有什么关系？

0热度

1回答

如何将文件“file1.txt”从本地复制到具有不同名称的hadoop？

我需要将文件file1.txt从本地复制到hadoop，我想在hadoop中使用不同名称（如“test.txt”）的“file1.txt”。 Hoow能实现吗？

0热度

1回答

复制的Json从本地平面文件到HDFS

package com.Main; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;

0热度

2回答

多个文件作为输入到Hadoop Dfs和mapreduce

通常我们在一个文本文件中输入到java文件（比如简单的字数问题）。相反，现在我有100个csv文件，我想给作为我的java代码的输入（所有文件不能简单地合并为一个文件）。试图预测给定100个股票的最大/最小股票波动率，因此每个csv文件是唯一的。那么，如何将csv文件的整个文件夹作为java程序的输入流。

0热度

1回答

HDFS DataNode会不会收回的本地磁盘空间，如果是一会儿

我做了POC与的Hadoop 2.9.0作为分布式文件存储系统，因此已经建立了多节点群集安装有1个NameNode和重新启动后4复制因子为2的数据节点（包括主节点）。现在，经过一系列复制操作后，我决定停止其中一个数据节点（slave2）。然后我使用hdfs dfs -rm -skipTrash命令清除了几GB的数据，而slave2仍然关闭。后来我重新启动了我停止的slave2 datanode

0热度

1回答

访问hdfs上名称前带空格的文件夹中的数据

我在HDFS上有一个路径为/user/xyz/ data的目录我无法访问它。他们的我已经试过 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。什么是访问它的最佳方