aws-glue

    1热度

    1回答

    我有AWS胶水管理的数据目录,而我的开发人员确实在我们与新表或者我们使用的是爬虫更新每天保持新的分区S3桶任何更新分区健康。 但是,我们还需要自定义的表格属性。在我们的配置单元中,我们将每个表的数据源作为表属性添加到数据目录中的表中,但每次运行爬网程序时,它都会覆盖自定义表的属性,如描述。 我做错了什么?或者这是来自AWS Glue的错误?

    2热度

    1回答

    我想将AWS Glue Data Catalog用作Spark SQL的Metastore。我通过AWS控制台as instructed here启动了EMR群集。 我能够从spark-shell中看到所有的粘贴目录表,但不能从Zeppelin中看到。 是否有任何属性需要在Zeppelin属性配置中设置? 在此先感谢。

    2热度

    1回答

    AWS胶文档中有关定价写着: 胶水ETL作业至少需要2周的DPU。默认情况下,AWS Glue 为每个ETL作业分配10个DPU。您每1小时收取0.44美元的DPU小时 ,增量为1分钟,四舍五入为最接近的分钟,每个ETL工作的最短持续时间为 。 我想减少分配给我的ETL作业的DPU数量。我在胶水控制台中搜索这个选项。但我没有找到它。你可以让我知道我该怎么做? 谢谢

    0热度

    1回答

    是否可以从AWS Glue作业调用R脚本?我也需要传递参数给它。

    1热度

    2回答

    我试图运行自定义Python脚本,该脚本导入AWS Glue上的外部纯Python库(psycopg2),但失败。我检查了CloudWatch日志,发现失败的原因是: Spark在HDFS中的几个文件夹上的权限检查失败,其中一个包含我上传到S3的外部python库(s3:// path /到/ psycopg2),这需要-x权限: org.apache.hadoop.security.Access

    0热度

    1回答

    ETL作业完成后,在AWS Glue脚本中调用存储过程的最佳方式是什么? 我使用PySpark从S3获取数据并存储在临时表中。在这个过程之后,需要调用一个存储过程。该存储过程将数据从临时表加载到相应的MDS表中。 如果我必须在ETL作业完成后调用存储过程,那么最好的方法是什么?如果我考虑AWS lambda,有没有什么方法可以在ETL之后通知lambda。

    1热度

    1回答

    我在aws胶水控制台中有向导生成的胶水作业。我没有更改任务生成的默认脚本。它从posgres数据库表(源)获取数据并写入另一个postgres数据库(目标)。我在ide中选择了启用书签。每当任务运行时,即使在源中没有插入,更新或删除时,它也会将完整的源数据库表复制到目标表。我明白在启用书签的情况下,它应该只复制上次运行源中的更改,但这不会发生。因此,如果源表中有4行,则每次运行任务时都会将所有4行

    7热度

    3回答

    以下是方面一些要点我怎么会有事的设置: 我已经上传到S3的CSV文件和胶履带设置来创建表和模式。 我有一个胶水作业设置,它使用JDBC连接将胶水表中的数据写入Amazon Redshift数据库。该工作还负责映射列和创建红移表。 通过重新运行一项工作,我得到了redshift中的重复行(如预期的那样)。但是,在插入新数据之前,是否有办法替换或删除行,使用密钥或胶水中的分区设置? import sy

    0热度

    1回答

    我刚刚玩弄Glue,但尚未成功在现有S3存储桶中创建新表。该作业将无误地执行,但S3中从未有任何输出。 下面是自动生成的代码是什么: glueContext.write_dynamic_frame.from_options(frame = applymapping1, connection_type = "s3", connection_options = {"path": "s3://glu

    0热度

    1回答

    因此,我正在尝试的是使用AWS Glue对S3存储桶中的数据进行爬网。存储为嵌套的JSON和路径数据是这样的: s3://my-bucket/some_id/some_subfolder/datetime.json 当运行默认的抓取工具(没有自定义分类),它基于路径划分,并如预期反序列化JSON,不过,我想摆脱时间戳文件名称以及单独的字段中。目前Crawler忽略它。 例如,如果我上运行履带: