hdfs

    1热度

    1回答

    我在talend MDM免费版的产品描述中看到它支持与Hadoop的连接,但是在界面上看不到任何选项。 我需要从S3获取数据并将其与Talend连接起来。你可以请建议,如果这可以做或不。如果是,那么如何?

    0热度

    1回答

    我是一个关于HDFS的新手,我的问题是如何为保存在hadoop 2.5版本上的文件创建符号链接。我使用java API访问hdfs来创建符号链接符号连接)和一个例外如下:在线程 “主要” java.lang.UnsupportedOperationException 例外: 符号连接不支持 在org.apache.hadoop.hdfs.DistributedFileSystem.createSy

    -2热度

    1回答

    我面临着一个问题: 我想分析了一堆的HTML文件中HDFS,我想用火花对其进行处理。为方便起见,我想使用pyspark,并且还想使用功能强大的包BeautifulSoup来解析html文件。我能做到吗?如何使用BeautifulSoup从HDFS读取文件?

    0热度

    1回答

    有一个文件夹mydir对其子目录和文件具有777权限。 每当新文件添加到此文件夹时,我必须运行chmod -R 777/mydir。 所以我试图用像许多命令: - Hadoop的FS -chmod -R乌戈+ RWX/MYDIR不会改变任何东西 Hadoop的FS -ll -d/MYDIR和hadoop fs ll -d/mydir两者都导致未知命令 hadoop fs -tune2fs -l/m

    -1热度

    1回答

    在正常的码头环境中,像hadoop-master和hadoop-slave这样的HDFS集群映像工作正常。但是当我尝试在群集模式下运行这些图像时,我正面临连接问题。群集hdfs与码头群兼容吗? 我部署的服务每2-3秒连续重启和退出。 有人可以帮助我详细地实现群集模式下的HDFS群集。 当我做搬运工日志conatinerid,我得到 start sshd... /bin/sh: 0: Can't

    0热度

    1回答

    我们有一个3节点的集群。每个节点有20个核心和100GB内存。我们将动态资源分配设置为true。 我想根据我的意愿调整资源。 例如: ​​只使用1芯。默认情况下,它选取4-6个核心。 我想为每个运行的spark-submit设置它。 我该如何达到我的要求。

    0热度

    1回答

    我有一个hadoop的docker镜像。 (在我的情况下,它是https://github.com/kiwenlau/hadoop-cluster-docker,但问题适用于任何Hadoop的搬运工图像) 我运行如下的泊坞窗容器.. sudo docker run -itd --net=hadoop --user=root -p 50070:50070 \ -p 8088:8088 -p 900

    0热度

    1回答

    我有avro文件被加载到蜂巢,但我的文件是二进制。 应该使用什么反序列化器来将二进制代码转换为配置单元? 我不想在配置单元中的二进制数据,但解码的二进制数据。 这就是我如何创建我的表。 CREATE TABLE kst7 行格式SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 存储为INPUTFORMAT 'org.apache.hadoop

    0热度

    1回答

    Hadoop的行业标准复制因子是3.那么这是否意味着如果有100 GB的数据,那么在HDFS中它将被存储为300 GB?

    1热度

    2回答

    我是Hortonworks HDP的新手;我有以下问题: 有一些用户,如果我不创建它们,那么甚至管理员不能执行。例如,除非我在ambari中创建了一个名为hdfs的用户,否则我将无法在HDFS上执行大量文件/文件夹操作。我应该创建这样的用户吗?他人如何管理群集? 在Hive接口中,每次我想要执行查询时,都必须点击'Execute'按钮。有执行的键盘快捷键吗?例如在Oracle SQL开发人员中,您