2012-04-08 135 views
1

我需要创建一个工具,使用高质量的相机扫描文档中的特定文本块并对它们进行OCR扫描。每个文档都匹配相同的模板,其中包含几个填充了数据的表格。我需要从每个扫描文档的特定单元格中提取数据。复杂文档的OCR扫描

我需要考虑图像的旋转和小变形。整个工作流程应如下所示:

  1. 文档“显示”到相机。软件制作文件的图片。
  2. 软件会产生一些小的旋转和其他转换(小幅剪切,缩放,旋转,因为手中持有文档)。
  3. 软件标识正在显示正确模板文档并从特定单元格中提取图像。
  4. 图像被OCR。

基本上,我不需要最终的解决方案,而是从哪里开始寻找的一些方向。我知道如何做一个纯文本OCRing,我不知道如何执行步骤2和3.

在此先感谢。

+0

您是否决定文档布局?你可以添加程序可能寻找的一些占位符(如十字或类似模式)? – 2012-04-08 12:50:17

+0

不,我不能。但是,该文件通常具有白色背景,并且始终与周围背景形成高度对比(环境永远不会变白)。所以基本上,可以使用白色边框来确定形状。 – bezmax 2012-04-08 12:54:26

回答

0

基本上,纯文本的OCR,特别是当涉及到非常好的扫描图像时, - 是一个很好解决的任务。您所描述的是更进一步的 - 图像预处理和数据采集的现场级识别。据我所知,开源引擎(甚至被认为是其中最好的tesseract)不提供这样的功能。

与此同时,专有的OCR引擎一直在解决您多年来描述的任务(花费巨大的人力资源),并且进展非常顺利。因此,如果您计划使用商业软件,我建议您查看http://ocrsdk.com,它是一个带有Web API的云OCR SDK。它可让您上传图像并将您发回的OCR数据。它已经内置了所有可能的图像预处理算法,因此您不必担心步骤2.至于步骤3 - 您可能想要参考其文档中的this section。我是开发该服务前端的团队的一员,所以我可以多说一点。希望能帮助到你!