2012-08-07 51 views
1

我试图通过API将本地文件加载到BigQuery,并且它失败。文件大小为98   MB,超过500万行。请注意,我已经加载了具有相同行数和稍大文件大小的表格,而过去没有问题。将本地文件加载到BigQuery表时出错

我使用的代码与API文档中的代码完全相同,我已成功地使用它来上传其他几个表。我得到的错误是:

Errors: 
Line:2243530, Too few columns: expected 5 column(s) but got 3 column(s) 
Too many errors encountered. Limit is: 0. 
Job ID: job_6464fc24a4414ae285d1334de924f12d 
Start Time: 9:38am, 7 Aug 2012 
End Time: 9:38am, 7 Aug 2012 
Destination Table: 387047224813:pos_dw_api.test 
Source URI: uploaded file 
Schema: 
    tbId: INTEGER 
    hdId: INTEGER 
    vtId: STRING 
    prId: INTEGER 
    pff: INTEGER 

注意,同一文件加载从云端储存(dw_tests/TestCSV/test.csv)就好了,所以这个问题不能成为一个报告有更少的列约一行,因为它也会从CloudStorage中失败,并且我还检查了所有行都具有正确的格式。

以下作业具有相同的问题,唯一的区别是表名和模式中字段的名称不同(但它是相同的数据文件,字段和类型)。在这些尝试它声称麻烦了不同行:

Line:4288253, Too few columns: expected 5 column(s) but got 4 column(s) 

的工作如下:

job_cbe54015b5304785b874baafd9c7e82e load  FAILURE 07 Aug 08:45:23 0:00:34 
job_f634cbb0a26f4404b6d7b442b9fca39c load  FAILURE 06 Aug 16:35:28 0:00:30 
job_346fdf250ae44b618633ad505d793fd1 load  FAILURE 06 Aug 16:30:13 0:00:34 

的Python脚本返回的错误是:

{'status': '503', 'content-length': '177', 'expires': 'Fri, 01 Jan 1990 00:00:00 GMT', 'server': 'HTTP Upload Server Built on Jul 27 2012 15:58:36 (1343429916)', 'pragma': 'no-cache', 'cache-control': 'no-cache, no-store, must-revalidate', 'date': 'Tue, 07 Aug 2012 08:36:40 GMT', 'content-type': 'application/json'} 

{ 
"error": { 
    "errors": [ 
    { 
    "domain": "global", 
    "reason": "backendError", 
    "message": "Backend Error" 
    } 
    ], 
    "code": 503, 
    "message": "Backend Error" 
} 
} 

这看起来像BigQuery可能存在问题。我该如何解决这个问题?

+0

嗨胡安:刚才要清楚的是,当您检查失败的提取作业ID时,您是否在作业完成时收到503错误,以及“Line:4288253,列太少”? – 2012-08-07 18:26:51

+0

嗨迈克尔,我在一段时间后得到了503,我想在它到达无法处理的文件部分的时候。我从控制台中的Jobs历史记录中了解到“Line XXXXX colums过少”的详细信息。请注意,作业在控制台的历史记录中才会显示,直到它失败。 – 2012-08-08 11:58:22

回答

0

临时文件仍然在这个导入,所以我能够检出我们试图导入的文件。对于工作job_6464fc24a4414ae285d1334de924f12d,最后一行是:

222,320828,bot,2,0 
222,320829,bot,4,3 
222,320829, 

看起来我们在某些时候放弃了输入文件的一部分...输入规范指出MD5哈希应该是58eb7c2954ddfa96d109fa1c60663293但我们对数据的哈希297f958bcf94959eae49bee32cc3ac​​dc,文件大小应为98921024,但我们只有83886080字节。

我会研究为什么会发生这种情况。与此同时,虽然Google Storage进口使用更简单的路径,应该没问题。

+0

谢谢乔丹。对于一个测试,我刚刚尝试上传一个大文件,我成功上传了前一天(请参阅job_c60decc9ff414a96aecf5367c7c60eb1)到一个新表“387047224813:pos_dw_api.test2”,它失败了,作业是job_58d11425bafa4318844d8fb2c1d92c75。所以这种情况似乎是最近的事态发展。这个问题是否可以解决我的问题?可能是套接字太早或类似关闭的通信问题? – 2012-08-08 12:21:43

+0

最新版本(截至今天下午)有一些额外的检查,看看我们是否可以再次发生这种情况。你可以试一下,让我们知道吗?谢谢 – 2012-08-15 22:37:32

+0

谢谢乔丹。我现在可以毫无问题地加载相同的文件(job_f15fe9fd42034349b944deb4590647b7)。我也尝试了最近失败的其他大文件,但几周前工作并且再次正常工作(job_44107a7c41c04f8f94f0917df734b6ed),所以似乎问题已解决。谢谢 – 2012-08-16 10:00:56