cloudera

    0热度

    1回答

    有没有什么办法可以使用除时间戳以外的列值自动执行sqoop导入。我试图在我的表格中使用一列(ID)。但它没有奏效。以下是示例代码,我正在使用cloudera hadoop UI进行自动化。问题是最后一个没有自动更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

    0热度

    2回答

    下面是我的数据框和代码 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代码 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

    0热度

    1回答

    我在做Cloudera教程,并执行“4.使用spark-submit提交应用程序”。我做错了什么,以便运行教程失败?我从/ bin文件夹中找到spark-shell和spark-submit,但没有Spark-slass。 https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_streaming.html#stre

    2热度

    1回答

    我从Cloudera quickstart docker容器上的Python Spark(v 1.6.0)开始。 我把一个静态 .txt文件(500 MB)放在hdfs下的/user/root/access_log.txt文件中。 在pyspark我试着将文件加载用TE以下行的Python代码: lines = sc.textFile("hdfs://quickstart.cloudera/use

    0热度

    1回答

    已将Cloudera VM和加载的数据文件安装到HDFS中。命令“hadoop fs -ls /”帮助我验证hdfs中的数据。但想知道它所在的物理位置? 任何建议都会有所帮助。

    0热度

    1回答

    我试图在cloudera中运行下面的命令并获取链接失败错误。我试图重启mysqld服务,没用。请帮助一些朋友。 代码和错误: [Cloudera的@快速入门〜] $ sqoop列表数据库--connect “的jdbc:mysql的://quickstart.cloudera:3306” --username = retail_dba --password = Cloudera的 警告:/usr/

    0热度

    1回答

    我们的Hadoop集群每天报告有“低复制块”。它通过Cloudera Manager进行管理。健康警语的一个例子是: ! Under-Replicated Blocks Concerning: 767 under replicated blocks in the cluster. 3,115 total blocks in the cluster. Percentage under replica

    0热度

    1回答

    我们正在面对Cloudera CDH 5.8.5中与Sqoop v1.4.6的钱包利用有关的一些问题。我们的方案: 用户文件夹:/家/ myuser的 钱包夹:/家/ myuser的/钱包(cwallet.sso,cwallet.sso.lck,ewallet.p12,电子钱包。 p12.lck,sqlnet.ora中,tnsnames.ora中) 钱包是公配置为如果用完 sqlplus /@MY

    0热度

    1回答

    我有一个5节点cluster.I使用pyspark将一个100k csv文件加载到数据帧并执行一些etl操作并将输出写入parquet文件。 当我加载数据框时,如何将数据集统一划分到每个执行器处理20k记录的所有执行者OS中。

    -1热度

    1回答

    我试图在我的Cloudera VM 5.10中安装Scala IDE 4.7,它分别预先配置了JDK 1.7,Spark 1.6版本。 因此,我通过卸载Cloudera提供的位于/usr/java/jdk1.7的默认JDK,在/ opt/location中安装了jdk 1.8。我在.bash_profile中添加了Java环境变量。我成功地安装了Scala IDE。 但现在Hadoop的所有生态系