我需要创建一个工具,使用高质量的相机扫描文档中的特定文本块并对它们进行OCR扫描。每个文档都匹配相同的模板,其中包含几个填充了数据的表格。我需要从每个扫描文档的特定单元格中提取数据。复杂文档的OCR扫描
我需要考虑图像的旋转和小变形。整个工作流程应如下所示:
- 文档“显示”到相机。软件制作文件的图片。
- 软件会产生一些小的旋转和其他转换(小幅剪切,缩放,旋转,因为手中持有文档)。
- 软件标识正在显示正确模板文档并从特定单元格中提取图像。
- 图像被OCR。
基本上,我不需要最终的解决方案,而是从哪里开始寻找的一些方向。我知道如何做一个纯文本OCRing,我不知道如何执行步骤2和3.
在此先感谢。
您是否决定文档布局?你可以添加程序可能寻找的一些占位符(如十字或类似模式)? – 2012-04-08 12:50:17
不,我不能。但是,该文件通常具有白色背景,并且始终与周围背景形成高度对比(环境永远不会变白)。所以基本上,可以使用白色边框来确定形状。 – bezmax 2012-04-08 12:54:26