2016-10-02 140 views
0

我需要从Google云端存储(GCS - >临时表 - >主表)将100个表加载到BigQuery。我创建了一个python进程来将数据加载到BigQuery中并在AppEngine中进行安排。由于AppEngine有最多10分钟的超时时间。我已经以异步模式提交作业,并在稍后的时间点检查作业状态。由于我有100个表需要创建一个监视系统来检查工作负载的状态。将数据从谷歌云存储加载到BigQuery

需要维护一对表和一堆视图来检查作业状态。

操作过程并不复杂。有没有更好的方法?

感谢

+0

请你总结一下你做什么,或许真的可以改善哪些步骤。 – Pentium10

+0

你能告诉我一步一步你是如何在appengine中创建一个python进程,并安排它,因为我期待在bigquery中做同样的事情,我想从谷歌载入csv文件到使用python的appengine的bigquery表中? – LondonUK

回答

0

当我们这样做,我们只是用像Beanstalkd,我们推的东西,后来不得不进行检查一个消息队列中,我们写了一个小工人谁订阅了通道和处理任务。

另一方面:BigQuery支持直接从Google云端存储查询数据。

使用案例:
- 加载和从联合数据源(外部至BigQuery的位置)查询数据和写入清理结果至BigQuery存储清理你的数据在一个通行证。
- 有少量频繁更改的数据与其他表连接。作为联合数据源,每次更新时不需要重新加载频繁更改的数据。

https://cloud.google.com/bigquery/federated-data-sources

相关问题