hdfs

    1热度

    1回答

    我是新来的大数据。我了解到HDFS用于存储更多结构化数据,而HBase用于存储非结构化数据。我有一个REST API,我需要获取数据并将其加载到数据仓库(HDFS/HBase)中。数据采用JSON格式。那么哪一个会更好地加载数据? HDFS或HBase?你也可以请我指导一些教程来做到这一点。我遇到了这个约Tutorial with Streaming Data。但我不确定这是否符合我的用例。 如果

    0热度

    1回答

    我使用Avro的文件数据存储在HDFS复制。我需要从一个avro文件复制选定的列数据并将其发送到同一个集群中具有其自己的模式文件(具有选定列信息)的另一个位置。我怎样才能做到这一点?是否可以使用Hive实现?或者HDFS中是否有任何实用工具可以帮助我做到这一点? 这是必需的,因为一组必须能够访问整个表,而另一组应该能够访问只有几列。所以,我需要它们只在HDFS中的一个单独位置,只有所需的模式和av

    0热度

    1回答

    我有一个用例,车辆上的设备必须将平面二进制文件发送到云服务器,在它们进入并处理数据时将它们存储到Hbase 。我想知道哪些数据提取框架支持从远程设备上传平面二进制文件,以及需要使用哪种数据处理框架来解析这些文件并将数据存储到HBase中。请提出适合我的应用的设计。

    0热度

    1回答

    我想确认一下我上传到加密区的文件是否真的加密过。 加密区域的路径是/ A,加密文件的名称是B,所以我运行hdfs dfs -cat /A/B,结果是未加密的。 但是当我运行hdfs dfs -cat /.reserved/raw/A/B时,结果被加密。 什么是“/.reserved/raw"?如果我不添加”/.reserved/raw“,我可以查看明文。透明加密的意义是什么?

    0热度

    2回答

    背景 - 我们正尝试将不同的文件类型(csv或parquet)读入pyspark,并且我有编写一个程序来确定文件类型的任务。 似乎parquet文件总是目录,parquet文件作为目录出现在HDFS中。 我们有一些csv文件也是目录,其中文件名是目录名,目录包含多个零件文件。什么过程做到这一点? 为什么有些文件 - '文件'和一些文件'目录'?

    0热度

    1回答

    我在Ambari中看到,默认块大小设置为134217728.是否有任何特定的原因将其设置为此值(128或256除外) )?

    0热度

    1回答

    我在我的笔记本电脑中设置了Hadoop, ,并且当我在Hadoop(尽管MapReduce和Tez)上提交作业时, 状态始终为“已接受”,但始终进展停留在0%,描述写了类似“等待AM容器分配”的内容。 当我检查通过YARN UI(本地主机:8088)的节点, 它表明活性节点是0 但是从HDFS UI(本地主机:50070),它显示有是一个活节点。 是那个导致作业卡,因为没有可用的节点的主要原因是什

    0热度

    2回答

    我是hadoop的新手,我读了许多hadoop mapreduce和hdfs的页面,但仍然无法清除一个概念。 可能是这个问题是愚蠢的或不寻常的,如果它是这样比这么抱歉。 我的问题是,假设我为hadoop中的1 GB大小的文件创建了一个字数统计程序,其中map函数将每行作为输入和输出作为键值对,并且reduce函数将输入 作为输入键值对,并简单地迭代列表并计算单词在该文件中出现的总次数。 现在我的问

    1热度

    1回答

    我在我的服务器上使用python v3.4,我经常需要从本地目录复制/移动多个文件到hdfs目录。我的所有文件都在子目录中,而子目录又位于MyDir中。下面是该命令运行在服务器上很好,但是当我使用的python里面相同的命令使用子 >>> subprocess.call(['hdfs', 'dfs', '-copyFromLocal', 'MyDir/*', '/path/to/hdfs/'])

    1热度

    1回答

    我收集了多个推文并将它们存储在hdfs中。 我知道我的hdfs中有很多零件文件。 它们非常小,比如0.5 Ko,因为只有一个tweets存储在一个文件中。 我想知道是否可以让他们这样做,或者如果最好将它们合并到更大的文件中,以尝试达到最大块大小。