TensorFlow - 图像

我是新来TensorFlow和深度学习文字识别。我想识别naturel场景图像中的文本。我曾经使用OCR，但我想使用深度学习。文本总是具有相同的格式： ABC-DEF 88:88。TensorFlow - 图像

我所做的就是承认每个字符/数字。这意味着我剪切了每个角色周围的图像（因此每幅图都给了我10个角色）来构建我的训练和测试集，并且他们构建了一个两个神经网络。所以我的训练集是一组人物图片，标签只是字符/数字。

但我想走得更远。我想要做的只是给出完整的图片并输出整个文本（而不是像我之前的模型中的一个字符）。

非常感谢您的帮助。

来源

2017-02-15 A. Attia

困难的是，你不知道在哪里文字。解决方案是，给定一幅图像，您需要使用滑动窗口来裁剪图像的不同部分，然后使用分类器来确定裁剪区域中是否有文本。如果是这样，请使用您的字符/数字识别器来确定它们确实是哪些字符/数字。

所以，你需要培养另一种分类器：给定一个裁剪图像（裁剪图像的尺寸应该比你的文本区域稍大），决定是否有内部文本。

只是构建训练集（阳性样品文本区域，阴性样品是从大图像裁剪随机等领域），并训练它〜

来源

2017-02-15 09:02:47 soloice

谢谢，但应该出这样的分类（滑动窗口）必须是convnet？训练集必须包含多个字符文本区域或只有一个字符？ –

一个convnet是好的，易于实现，如果你正在使用TensorFlow，来自Caffe或其他一些深层的学习框架，但可能是在检测阶段慢（因为你需要到窗口在整个图像幻灯片，每个图像有很多窗户）。其他模型也可以工作，例如具有类哈尔特征的提升方法（Google提供的“haar like feature adaboost cascade”，您可以在脸部识别上找到很多材料）。 – soloice

@alexattia训练集最好包含多个字符。通过这样做，您可以拥有更大的窗口并减少误报。如果面积太小，可能会将其他一些事情报告为字母/数字。说，算法可能需要一些垂直边缘作为数字“1”，这是可怕的。 – soloice

TensorFlow - 图像

回答

相关问题