cloudera

0热度

1回答

有没有什么办法可以使用除时间戳以外的列值自动执行sqoop导入。我试图在我的表格中使用一列（ID）。但它没有奏效。以下是示例代码，我正在使用cloudera hadoop UI进行自动化。问题是最后一个没有自动更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

0热度

2回答

Pyspark ML错误对象有没有属性地图

下面是我的数据框和代码 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代码 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

0热度

1回答

Spark提交失败 -/opt/cloudera/parcels/CDH/bin/spark-class：没有这样的文件或目录

我在做Cloudera教程，并执行“4.使用spark-submit提交应用程序”。我做错了什么，以便运行教程失败？我从/ bin文件夹中找到spark-shell和spark-submit，但没有Spark-slass。 https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_streaming.html#stre

2热度

1回答

Pyspark sc.textFile（）不能完全加载文件

我从Cloudera quickstart docker容器上的Python Spark（v 1.6.0）开始。我把一个静态 .txt文件（500 MB）放在hdfs下的/user/root/access_log.txt文件中。在pyspark我试着将文件加载用TE以下行的Python代码： lines = sc.textFile("hdfs://quickstart.cloudera/use

0热度

1回答

Cloudera Hadoop VM 5.10 - 找到HDFS路径？

已将Cloudera VM和加载的数据文件安装到HDFS中。命令“hadoop fs -ls /”帮助我验证hdfs中的数据。但想知道它所在的物理位置？任何建议都会有所帮助。

0热度

1回答

cloudera链接错误，同时运行sqoop列表数据库命令

我试图在cloudera中运行下面的命令并获取链接失败错误。我试图重启mysqld服务，没用。请帮助一些朋友。代码和错误： [Cloudera的@快速入门〜] $ sqoop列表数据库--connect “的jdbc：mysql的：//quickstart.cloudera：3306” --username = retail_dba --password = Cloudera的警告：/usr/

0热度

1回答

HDFS重复发生的错误：低复制块

我们的Hadoop集群每天报告有“低复制块”。它通过Cloudera Manager进行管理。健康警语的一个例子是： ! Under-Replicated Blocks Concerning: 767 under replicated blocks in the cluster. 3,115 total blocks in the cluster. Percentage under replica

0热度

1回答

带钱包的Sqoop导入

我们正在面对Cloudera CDH 5.8.5中与Sqoop v1.4.6的钱包利用有关的一些问题。我们的方案：用户文件夹：/家/ myuser的钱包夹：/家/ myuser的/钱包（cwallet.sso，cwallet.sso.lck，ewallet.p12，电子钱包。 p12.lck，sqlnet.ora中，tnsnames.ora中）钱包是公配置为如果用完 sqlplus /@MY

0热度

1回答

pyspark在所有执行者之间均匀分配负载

我有一个5节点cluster.I使用pyspark将一个100k csv文件加载到数据帧并执行一些etl操作并将输出写入parquet文件。当我加载数据框时，如何将数据集统一划分到每个执行器处理20k记录的所有执行者OS中。

-1热度

1回答

为Hadoop生态系统重新配置Java环境变量

我试图在我的Cloudera VM 5.10中安装Scala IDE 4.7，它分别预先配置了JDK 1.7，Spark 1.6版本。因此，我通过卸载Cloudera提供的位于/usr/java/jdk1.7的默认JDK，在/ opt/location中安装了jdk 1.8。我在.bash_profile中添加了Java环境变量。我成功地安装了Scala IDE。但现在Hadoop的所有生态系