2017-07-14 55 views
0

实施例:填充在红移同一条目具有两个CSV

的CSV 1:键,D1,D2,D3

的CSV 2:键,D4,D5

预期上红移:键, d1,d2,d3,d4,d5

这可能吗?如果你知道如何去做,告诉我,但我主要关心的是如果可以开始。

回答

0

这样直接复制是不可能的,你有以下几种选择:

1)使用红移频谱服务 - 创建外部架构,并与连接查询它来获取所需的数据结构中的红移。缺点是这是一个按次付费的服务。

2)使用Python或Athena处理CSV,将它们合并到所需的数据结构中,然后复制它。

3)将它们分别导入到两个临时表中,然后加入到最终表中。不足之处在于,如果数据很大,则预留2个空间(一个用于登台表,另一个用于结果表)可能会有问题,但您可以简单地使用连接创建视图。

+0

谢谢,即时尝试避免第二个,并试图做第三。现在,我知道我会看看频谱服务。 – Marco

0

直接,不,但您可以在原始ETL过程中加入对象,或在Redshift中使用临时表,然后实现它并删除临时表。

+0

谢谢,我想我现在可以弄清楚它是如何实现的,基本上我想知道是否可以避免通过整个ETL过程来做到这一点,并在红移一侧解决它。这样我不必将数据移动到EMR以便进行内部连接并稍后加载。 – Marco

+0

只需在redshift中进行连接,创建一个新的连接的输出表,然后将其输入EMR – Henry

相关问题