hdfs

1热度

1回答

我在talend MDM免费版的产品描述中看到它支持与Hadoop的连接，但是在界面上看不到任何选项。我需要从S3获取数据并将其与Talend连接起来。你可以请建议，如果这可以做或不。如果是，那么如何？

0热度

1回答

我是一个关于HDFS的新手，我的问题是如何为保存在hadoop 2.5版本上的文件创建符号链接。我使用java API访问hdfs来创建符号链接符号连接）和一个例外如下：在线程 “主要” java.lang.UnsupportedOperationException 例外：符号连接不支持在org.apache.hadoop.hdfs.DistributedFileSystem.createSy

-2热度

1回答

我可以使用spark来解析html文件吗？

我面临着一个问题：我想分析了一堆的HTML文件中HDFS，我想用火花对其进行处理。为方便起见，我想使用pyspark，并且还想使用功能强大的包BeautifulSoup来解析html文件。我能做到吗？如何使用BeautifulSoup从HDFS读取文件？

0热度

1回答

如何将新文件权限设置为hdfs中的父文件夹？

有一个文件夹mydir对其子目录和文件具有777权限。每当新文件添加到此文件夹时，我必须运行chmod -R 777/mydir。所以我试图用像许多命令： - Hadoop的FS -chmod -R乌戈+ RWX/MYDIR不会改变任何东西 Hadoop的FS -ll -d/MYDIR和hadoop fs ll -d/mydir两者都导致未知命令 hadoop fs -tune2fs -l/m

-1热度

1回答

群集中的HDFS聚类

在正常的码头环境中，像hadoop-master和hadoop-slave这样的HDFS集群映像工作正常。但是当我尝试在群集模式下运行这些图像时，我正面临连接问题。群集hdfs与码头群兼容吗？我部署的服务每2-3秒连续重启和退出。有人可以帮助我详细地实现群集模式下的HDFS群集。当我做搬运工日志conatinerid，我得到 start sshd... /bin/sh: 0: Can't

0热度

1回答

动态分配设置为true时手动分配内核数量

我们有一个3节点的集群。每个节点有20个核心和100GB内存。我们将动态资源分配设置为true。我想根据我的意愿调整资源。例如：只使用1芯。默认情况下，它选取4-6个核心。我想为每个运行的spark-submit设置它。我该如何达到我的要求。

0热度

1回答

如何在Docker容器中保存HDFS数据

我有一个hadoop的docker镜像。（在我的情况下，它是https://github.com/kiwenlau/hadoop-cluster-docker，但问题适用于任何Hadoop的搬运工图像）我运行如下的泊坞窗容器.. sudo docker run -itd --net=hadoop --user=root -p 50070:50070 \ -p 8088:8088 -p 900

0热度

1回答

可否将Hive反序列化为提供的模式？

我有avro文件被加载到蜂巢，但我的文件是二进制。应该使用什么反序列化器来将二进制代码转换为配置单元？我不想在配置单元中的二进制数据，但解码的二进制数据。这就是我如何创建我的表。 CREATE TABLE kst7 行格式SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 存储为INPUTFORMAT 'org.apache.hadoop

0热度

1回答

Hadoop复制因子是3.如何存储多少数据？

Hadoop的行业标准复制因子是3.那么这是否意味着如果有100 GB的数据，那么在HDFS中它将被存储为300 GB？

1热度

2回答

Hortonworks：我应该在Ambari创建诸如hdfs，配置单元的用户吗？

我是Hortonworks HDP的新手;我有以下问题：有一些用户，如果我不创建它们，那么甚至管理员不能执行。例如，除非我在ambari中创建了一个名为hdfs的用户，否则我将无法在HDFS上执行大量文件/文件夹操作。我应该创建这样的用户吗？他人如何管理群集？在Hive接口中，每次我想要执行查询时，都必须点击'Execute'按钮。有执行的键盘快捷键吗？例如在Oracle SQL开发人员中，您