emr

    4热度

    3回答

    我想查找数组中的空字符,这是我的。我试着显示ASCII值,它打印0(所以我确认它是一个空值)。如何编写正则表达式来过滤掉这些值。 我写道: m/^$/ig 这确实对我没有帮助。有人知道如何匹配空字符吗?

    0热度

    1回答

    打开调试模式后,我正在EMR上运行一个spark任务(yarn,cluster-mode,transient - 集群在作业完成后关闭)。所有的火花日志上传到S3的预期,但我不能上传自己的自定义日志... 使用log4j的,我想给他们写了如下因素路径acording火花DOC log4j.appender.algoLog.File=${spark.yarn.app.container.log.di

    0热度

    1回答

    在Hue笔记本(AWS EMR v5.5)中,尝试使用Presto时遇到CLASSPATH错误。 日志: File "/usr/lib/hue/build/env/lib64/python2.7/UserDict.py", line 40, in __getitem__ raise KeyError(key) KeyError: 'CLASSPATH' 有关导出CLASSPATH避

    0热度

    1回答

    我们正试图创建一个使用Terraform(v0.9.11)的AWS EMR集群,并想知道是否有传递额外的信息通过像下面Terraform的方式 - { 'ami64':'ami-XXXXX', 'amiHvm64':'ami-XXXXXXX', 'customAMI':true, 'hadoopConfigurationVersion':'4.0',

    1热度

    1回答

    我参考了此链接:http://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Hive_Commands.html。 我的蜂巢脚本是象下面这样: DROP TABLE IF EXISTS hiveTableName; CREATE EXTERNAL TABLE hiveTableName (item map<string,string>) STO

    0热度

    1回答

    我有一个StatefulSet卡桑德拉部署中的伟大工程部署到Kubernetes命名空间访问服务,但我也有在EMR运行,需要加载数据的ETL作业进入Cassandra集群。 什么将是主要的方法/这样做的Kubernetes方式?

    1热度

    1回答

    我在气流中制作了以下DAG,并执行一组EMRSteps来运行我的管道。 default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(2017, 07, 20, 10, 00), 'email': ['[email protected]'],

    0热度

    2回答

    我正在尝试将Spark 2.1作业的指标整合到Ganglia。 我的火花default.conf看起来像 *.sink.ganglia.class org.apache.spark.metrics.sink.GangliaSink *.sink.ganglia.name Name *.sink.ganglia.host $MASTERIP *.sink.ganglia.port $PORT

    3热度

    1回答

    我正在EMR上创建集群并将Zeppelin配置为从S3读取笔记本。要做到这一点,我使用JSON对象,看起来像: [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export",

    0热度

    2回答

    我使用spark来计算并行任务。为了做到这一点,我的项目连接到一个服务器,该服务器产生一些我需要的数据来启动我的火花作业。 现在我想将我的项目迁移到aws上的云。 我在EMR上获得了我的Spark应用程序,并在EC2上获得了我的服务器。如何让我的EMR spark应用程序能够在我的EC2服务器上使用http请求?我需要类似网关的东西吗? 谢谢, 有一个愉快的一天。