hadoop2

0热度

1回答

我想在HDFS中搜索并列出包含我的搜索字符串的文件，，我的第二个要求是有任何可能的方法来搜索范围在文件HDFS中的值。让下面假设是我的文件，它包含以下数据 /user/hadoop/test.txt 101，ABC 102，DEF 103，GHI 104，AAA 105，bbb 是否有任何可能的方式使用范围[101-104]进行搜索，以便它返回包含以下数据范围的文件。。

1热度

1回答

如何查看元数据，存储在AWS Redshift中的数据沿袭情况？

我使用的解决方案，如cloudera navigator，atlas和Wherehows 得到的Hadoop，HDFS，HIVE，SQOOP，MapReduce的元数据和血统。现在我们在AWS redshift中也有一个数据仓库。有没有办法从红移中提取元数据或血统或两种信息。到目前为止，我还没有发现任何东西。有没有办法将相同的东西集成到视图中作为爬行解决方案？我发现只有一个post它提供了

0热度

1回答

Spark/YARN - 并非所有节点都用于spark-submit

我有一个Spark/YARN群集，其中有3个从站设置在AWS上。我想提交一份这样的工作：~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster my.py最终的结果是一个文件，其中包含集群中所有从节点的所有主机名。我期待我在输出文件中混合使用主机名，但是，我只能在输出文件中看到一个主机名。这

0热度

1回答

使用--create-hive-table直接导入mysql表（sqoop）

我正在为HDPCD考试培训自己，所以我正在测试所有可能的导入和导出，使用MySQL到Hive。在这个例子中，我想从MySQL导入一个表，并使用参数--create-hive-table从头开始创建配置单元中的同一个表。虽然在[documentation][1]它包括我已经找到一个正确的例子来做到这一点。我已经尝试过，但它不起作用 sqoop import --connect jdbc：mysql：

0热度

1回答

MapReduce登录Intellij主意控制台

我在IntellijIdea中运行WordCount MapReduce作业，但无法在Intellij控制台中看到任何日志。如果我在Cloudera VM中运行相同的作业，则可以看到控制台上的所有日志。

1热度

1回答

“文件模式” Hadoop的路径

我在做什么基本上都是自动使用Java代码的一些shell命令（提纲命令，包括Hadoop的shell命令），我现在做的猛砸follwoing命令： hadoop fs -mkdir path//tp//folder hadoop fs -chmod a+w path//to//folder 一切做工精细，现在什么时候试图用Java代码来执行相同的操作： org.apache.hadoop.f

0热度

1回答

Sparn on YARN + Secured hbase

我正在向YARN（on spark 2.1.1 + kafka 0.10.2.1）提交一个作业，它连接到一个安全的hbase集群。这个工作，当我在“本地”模式（spark.master = local [*]）下运行时表现得很好。然而，当我提交作业与主纱（和部署模式为客户端），我看到了以下错误消息 - Caused by: javax.security.auth.login.LoginExcep

0热度

1回答

org.apache.hadoop.hbase.snapshot.CorruptedSnapshotException：无法从以下文件读取快照信息：file：/ tmp/hbase-cloudera/hbase

您好我正在尝试将Hbase表快照导出到我的本地hdfs，以便我可以运行mapreduce就可以了。我已经采取了HBase的表使用以下命令 snapshot 'FundamentalAnalytic','FundamentalAnalyticSnapshot' 而且，当我跑list_snapshots命令，我可以看到我的快照还快照。我已经使用下面的命令将我的Hbase表快照导出到本地HDFS

1热度

1回答

调用从kv.local/172.20.12.168到localhost：8020连接异常失败，使用tera时

我正在与hadoop teragen一起检查hadoop mapreduce与terasort的基准测试。但是当我运行下面的命令， Hadoop的罐子/Users/**/Documents/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar teragen - Dmapreduce.job.maps =

-3热度

1回答

Spark作为数据摄入/登录到HDFS

在探索各种工具（如Nifi，Gobblin等）时，我观察到Databricks现在正在推广使用Spark进行数据摄入/登录。我们对纱线行走的火花[阶]基于应用程序。到目前为止，我们正在研究hadoop和spark集群，我们首先手动将所需的数据文件放在HDFS中，然后再运行我们的spark工作。现在，当我们正计划使可供我们期待从巨大的任何数据源[FTP，SFTP，任何关系和NoSQL数据库]任何