1)Greenplum不是香草postgres,但它是相似的。它有一些新的语法,但总的来说,高度一致。
2)的Greenplum本身提供了一些所谓的“gpfdist”,它可以让你听,你要想在一个文件中把指定端口上(但该文件已被分裂)。你想要可读的外部表。它们非常快。语法是这样的:
CREATE READABLE EXTERNAL TABLE schema.ext_table
(thing int, thing2 int)
LOCATION (
'gpfdist://server:port1/path/to/filep1.txt',
'gpfdist://server:port2/path/to/filep2.txt',
'gpfdist://server:port3/path/to/filep3.txt'
) FORMAT 'text' (delimiter E'\t' null 'null' escape 'off') ENCODING 'UTF8';
CREATE TEMP TABLE import AS SELECT * FROM schema.ext_table DISTRIBUTED RANDOMLY;
如果你发挥自己的规则,你的数据是干净的,加载可极快。
3)你不需要python来做到这一点,尽管你可以通过使用python来启动gpfdist进程,然后发送一个命令到psql来创建外部表并加载数据,从而实现自动化。取决于你想要做什么。
感谢您的有用评论。有没有Greenplum的在线文档?我确定在他们的网站上找不到任何东西。 – bijeshn 2011-05-27 04:46:27
你想要的管理员指南,可以在这里找到。 http://gpn.greenplum.com/download.php还有一个论坛不是非常活跃,但许多Greenplum工程师阅读。如果你喜欢我的回答,请将它投票:) – 2011-06-01 18:43:18