2017-02-15 73 views
6

我是新来TensorFlow和深度学习文字识别。 我想识别naturel场景图像中的文本。我曾经使用OCR,但我想使用深度学习。文本总是具有相同的格式: ABC-DEF 88:88TensorFlow - 图像

我所做的就是承认每个字符/数字。这意味着我剪切了每个角色周围的图像(因此每幅图都给了我10个角色)来构建我的训练和测试集,并且他们构建了一个两个神经网络。所以我的训练集是一组人物图片,标签只是字符/数字。

但我想走得更远。我想要做的只是给出完整的图片并输出整个文本(而不是像我之前的模型中的一个字符)。

非常感谢您的帮助。

回答

5

困难的是,你不知道在哪里文字。解决方案是,给定一幅图像,您需要使用滑动窗口来裁剪图像的不同部分,然后使用分类器来确定裁剪区域中是否有文本。如果是这样,请使用您的字符/数字识别器来确定它们确实是哪些字符/数字。

所以,你需要培养另一种分类器:给定一个裁剪图像(裁剪图像的尺寸应该比你的文本区域稍大),决定是否有内部文本。

只是构建训练集(阳性样品文本区域,阴性样品是从大图像裁剪随机等领域),并训练它〜

+0

谢谢,但应该出这样的分类(滑动窗口)必须是convnet?训练集必须包含多个字符文本区域或只有一个字符? –

+1

一个convnet是好的,易于实现,如果你正在使用TensorFlow,来自Caffe或其他一些深层的学习框架,但可能是在检测阶段慢(因为你需要到窗口在整个图像幻灯片,每个图像有很多窗户)。其他模型也可以工作,例如具有类哈尔特征的提升方法(Google提供的“haar like feature adaboost cascade”,您可以在脸部识别上找到很多材料)。 – soloice

+0

@alexattia训练集最好包含多个字符。通过这样做,您可以拥有更大的窗口并减少误报。如果面积太小,可能会将其他一些事情报告为字母/数字。说,算法可能需要一些垂直边缘作为数字“1”,这是可怕的。 – soloice