2017-09-15 155 views
3

我正在使用Google Cloud Vision API中的“TEXT_DETECTION”选项来OCR一些图像。Google Cloud Vision OCR API返回边界框/顶点的值不正确

围绕单个字符的边界框有时是准确的,有时不是,通常在同一图像内。

这是视觉算法的一个概率性质,Vision API中的一个错误,当然还有我如何解释响应的问题的正常副作用?

Image annotated with text and bounding boxes from Google Vision OCR API

The letter "a" with poor bounding box

下面是具体的字母“a”我从中提取边框响应的一部分。

stdClass Object 
(
    [property] => stdClass Object 
     (
      [detectedLanguages] => Array 
       (
        [0] => stdClass Object 
         (
          [languageCode] => en 
         ) 

       ) 

     ) 

    [boundingBox] => stdClass Object 
     (
      [vertices] => Array 
       (
        [0] => stdClass Object 
         (
          [x] => 419 
          [y] => 304 
         ) 

        [1] => stdClass Object 
         (
          [x] => 479 
          [y] => 304 
         ) 

        [2] => stdClass Object 
         (
          [x] => 479 
          [y] => 397 
         ) 

        [3] => stdClass Object 
         (
          [x] => 419 
          [y] => 397 
         ) 

       ) 

     ) 

    [text] => a 
) 

回答

0

在这里,你可以比较的Google vs Azure vs OCR.space输出..也许其他的人工作,你的目的更好? (但我怀疑它)

这是对视觉算法,视觉API中的错误的概率性质的正常副作用,

从我的测试中,所有的OCR服务展示与今天相同的问题,有时它们未能检测到完美的字母或单词(同时在同一图像中检测到类似的单词就好)。添加到链接列表

+0

Tim。感谢你的回应和链接,这应该是有用的。但是,我的问题是围绕字母的边框,而不是检测率或准确性。 –