2013-05-21 85 views
0

我有一张拥有16亿行的表格。我一直在运行一个查询,该查询使用具有超过500万个唯一值的分组字段,然后按降序排列另一个整数值的总和,最后只返回前10个。通知超过一个小时后,该查询是仍然处于运行状态。BigQuery的查询速度非常慢

我用“bq cp -a”创建了这个大表。最初这些源表是来自1000个较小表的“bq cp”,每个表都从12个压缩的csv加载文件加载。

我已经搜查了相关的问题,发现“Google BigQuery is running queries slowly”提到由于大量小量摄入而导致碎片化引起的缓慢。在摄入过程中,我的数据问题方法是否被认为是“数据位太小”,导致碎片化?

有可能500万个唯一值太多,这是响应缓慢的根本原因吗?

回答

0

昨天我们有一个延迟峰值,今天有一个较小的延迟。你可以给项目ID +查询作业的工作ID花费比预期更长的时间吗?

+0

它在2小时10分钟后完成。 Hproject id + jobid:atbflow:job_7c07ccb9417a4b34b241ffc2636e234c,开始时间:5月21日11:22:14,持续时间:2:10:03,处理的字节数:63015028495 –

+0

看起来您可能在临时查询减速期间运行了此操作。我刚刚运行了您的查询,并在11秒内完成。如果你看到任何进一步的问题,你能告诉我吗? –