emr

4热度

3回答

我想查找数组中的空字符，这是我的。我试着显示ASCII值，它打印0（所以我确认它是一个空值）。如何编写正则表达式来过滤掉这些值。我写道： m/^$/ig 这确实对我没有帮助。有人知道如何匹配空字符吗？

0热度

1回答

打开调试模式后，我正在EMR上运行一个spark任务（yarn，cluster-mode，transient - 集群在作业完成后关闭）。所有的火花日志上传到S3的预期，但我不能上传自己的自定义日志... 使用log4j的，我想给他们写了如下因素路径acording火花DOC log4j.appender.algoLog.File=${spark.yarn.app.container.log.di

0热度

1回答

AWS EMR上的Presto：通过Hue访问

在Hue笔记本（AWS EMR v5.5）中，尝试使用Presto时遇到CLASSPATH错误。日志： File "/usr/lib/hue/build/env/lib64/python2.7/UserDict.py", line 40, in __getitem__ raise KeyError(key) KeyError: 'CLASSPATH' 有关导出CLASSPATH避

0热度

1回答

是否可以使用Terraform将附加信息传递到EMR集群？

我们正试图创建一个使用Terraform（v0.9.11）的AWS EMR集群，并想知道是否有传递额外的信息通过像下面Terraform的方式 - { 'ami64':'ami-XXXXX', 'amiHvm64':'ami-XXXXXXX', 'customAMI':true, 'hadoopConfigurationVersion':'4.0',

1热度

1回答

使用Hive将Dynamodb导出到S3

我参考了此链接：http://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Hive_Commands.html。我的蜂巢脚本是象下面这样： DROP TABLE IF EXISTS hiveTableName; CREATE EXTERNAL TABLE hiveTableName (item map<string,string>) STO

0热度

1回答

什么办法，我应该对外部访问卡桑德拉内运行使用kubernetes

我有一个StatefulSet卡桑德拉部署中的伟大工程部署到Kubernetes命名空间访问服务，但我也有在EMR运行，需要加载数据的ETL作业进入Cassandra集群。什么将是主要的方法/这样做的Kubernetes方式？

1热度

1回答

Airflow EMR从传感器执行步骤

我在气流中制作了以下DAG，并执行一组EMRSteps来运行我的管道。 default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(2017, 07, 20, 10, 00), 'email': ['[email protected]'],

0热度

2回答

如何整合Ganglia for Spark 2.1作业指标，忽略Ganglia指标的Spark

我正在尝试将Spark 2.1作业的指标整合到Ganglia。我的火花default.conf看起来像 *.sink.ganglia.class org.apache.spark.metrics.sink.GangliaSink *.sink.ganglia.name Name *.sink.ganglia.host $MASTERIP *.sink.ganglia.port $PORT

3热度

1回答

在启动集群时在EMR上配置Zeppelin的Spark解释器

我正在EMR上创建集群并将Zeppelin配置为从S3读取笔记本。要做到这一点，我使用JSON对象，看起来像： [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export",

0热度

2回答

如何将EMR集群连接到EC2服务器

我使用spark来计算并行任务。为了做到这一点，我的项目连接到一个服务器，该服务器产生一些我需要的数据来启动我的火花作业。现在我想将我的项目迁移到aws上的云。我在EMR上获得了我的Spark应用程序，并在EC2上获得了我的服务器。如何让我的EMR spark应用程序能够在我的EC2服务器上使用http请求？我需要类似网关的东西吗？谢谢，有一个愉快的一天。