hadoop2

    0热度

    1回答

    我想在HDFS中搜索并列出包含我的搜索字符串的文件, ,我的第二个要求是有任何可能的方法来搜索范围在文件HDFS中的值。 让下面假设是我的文件,它包含以下数据 /user/hadoop/test.txt 101,ABC 102,DEF 103,GHI 104,AAA 105,bbb 是否有任何可能的方式使用范围[101-104]进行搜索,以便它返回包含以下数据范围的文件。 。

    1热度

    1回答

    我使用的解决方案,如cloudera navigator,atlas和Wherehows 得到的Hadoop,HDFS,HIVE,SQOOP,MapReduce的元数据和血统。 现在我们在AWS redshift中也有一个数据仓库。有没有办法从红移中提取元数据或血统或两种信息。 到目前为止,我还没有发现任何东西。 有没有办法将相同的东西集成到视图中作为爬行解决方案? 我发现只有一个post它提供了

    0热度

    1回答

    我有一个Spark/YARN群集,其中有3个从站设置在AWS上。 我想提交一份这样的工作:~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster my.py最终的结果是一个文件,其中包含集群中所有从节点的所有主机名。我期待我在输出文件中混合使用主机名,但是,我只能在输出文件中看到一个主机名。这

    0热度

    1回答

    我正在为HDPCD考试培训自己,所以我正在测试所有可能的导入和导出,使用MySQL到Hive。在这个例子中,我想从MySQL导入一个表,并使用参数--create-hive-table从头开始创建配置单元中的同一个表。虽然在[documentation][1]它包括我已经找到一个正确的例子来做到这一点。我已经尝试过,但它不起作用 sqoop import --connect jdbc:mysql:

    0热度

    1回答

    我在IntellijIdea中运行WordCount MapReduce作业,但无法在Intellij控制台中看到任何日志。如果我在Cloudera VM中运行相同的作业,则可以看到控制台上的所有日志。

    1热度

    1回答

    我在做什么基本上都是自动使用Java代码的一些shell命令(提纲命令,包括Hadoop的shell命令),我现在做的猛砸follwoing命令: hadoop fs -mkdir path//tp//folder hadoop fs -chmod a+w path//to//folder 一切做工精细,现在什么时候试图用Java代码来执行相同的操作: org.apache.hadoop.f

    0热度

    1回答

    我正在向YARN(on spark 2.1.1 + kafka 0.10.2.1)提交一个作业,它连接到一个安全的hbase集群。这个工作,当我在“本地”模式(spark.master = local [*])下运行时表现得很好。 然而,当我提交作业与主纱(和部署模式为客户端),我看到了以下错误消息 - Caused by: javax.security.auth.login.LoginExcep

    0热度

    1回答

    您好我正在尝试将Hbase表快照导出到我的本地hdfs,以便我可以运行mapreduce就可以了。 我已经采取了HBase的表使用以下命令 snapshot 'FundamentalAnalytic','FundamentalAnalyticSnapshot' 而且,当我跑list_snapshots命令,我可以看到我的快照还快照。 我已经使用下面的命令将我的Hbase表快照导出到本地HDFS

    1热度

    1回答

    我正在与hadoop teragen一起检查hadoop mapreduce与terasort的基准测试。 但是当我运行下面的命令, Hadoop的罐子/Users/**/Documents/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar teragen - Dmapreduce.job.maps =

    -3热度

    1回答

    在探索各种工具(如Nifi,Gobblin等)时,我观察到Databricks现在正在推广使用Spark进行数据摄入/登录。 我们对纱线行走的火花[阶]基于应用程序。到目前为止,我们正在研究hadoop和spark集群,我们首先手动将所需的数据文件放在HDFS中,然后再运行我们的spark工作。 现在,当我们正计划使可供我们期待从巨大的任何数据源[FTP,SFTP,任何关系和NoSQL数据库]任何