0
我正在尝试使用谷歌视觉api在我的图像上执行OCR。 Json输出到API调用返回带有边界框信息的识别字。Google Vision Api文本检测来自边界框的布局信息
有人能告诉我如何使用这个边界框信息做我的图像布局分析?
如果有一个库将其作为输入并返回句子而不是单词?
{
"description": "Ingredients:",
"boundingPoly": {
"vertices": [
{
"x": 14,
"y": 87
},
{
"x": 53,
"y": 87
},
{
"x": 53,
"y": 98
},
{
"x": 14,
"y": 98
}
]
}
},
{
"description": "Chicken",
"boundingPoly": {
"vertices": [
{
"x": 55,
"y": 87
},
{
"x": 77,
"y": 87
},
{
"x": 77,
"y": 98
},
{
"x": 55,
"y": 98
}
]
}
},
例如在上面的json中,单词'Ingredients:''Chicken'在同一行上。有没有一个图书馆可以给我提供这些信息?
用于OCR source image