6
我是新来TensorFlow和深度学习文字识别。 我想识别naturel场景图像中的文本。我曾经使用OCR,但我想使用深度学习。文本总是具有相同的格式: ABC-DEF 88:88
。TensorFlow - 图像
我所做的就是承认每个字符/数字。这意味着我剪切了每个角色周围的图像(因此每幅图都给了我10个角色)来构建我的训练和测试集,并且他们构建了一个两个神经网络。所以我的训练集是一组人物图片,标签只是字符/数字。
但我想走得更远。我想要做的只是给出完整的图片并输出整个文本(而不是像我之前的模型中的一个字符)。
非常感谢您的帮助。
谢谢,但应该出这样的分类(滑动窗口)必须是convnet?训练集必须包含多个字符文本区域或只有一个字符? –
一个convnet是好的,易于实现,如果你正在使用TensorFlow,来自Caffe或其他一些深层的学习框架,但可能是在检测阶段慢(因为你需要到窗口在整个图像幻灯片,每个图像有很多窗户)。其他模型也可以工作,例如具有类哈尔特征的提升方法(Google提供的“haar like feature adaboost cascade”,您可以在脸部识别上找到很多材料)。 – soloice
@alexattia训练集最好包含多个字符。通过这样做,您可以拥有更大的窗口并减少误报。如果面积太小,可能会将其他一些事情报告为字母/数字。说,算法可能需要一些垂直边缘作为数字“1”,这是可怕的。 – soloice