复杂文档的OCR扫描

我需要创建一个工具，使用高质量的相机扫描文档中的特定文本块并对它们进行OCR扫描。每个文档都匹配相同的模板，其中包含几个填充了数据的表格。我需要从每个扫描文档的特定单元格中提取数据。复杂文档的OCR扫描

我需要考虑图像的旋转和小变形。整个工作流程应如下所示：

文档“显示”到相机。软件制作文件的图片。
软件会产生一些小的旋转和其他转换（小幅剪切，缩放，旋转，因为手中持有文档）。
软件标识正在显示正确模板文档并从特定单元格中提取图像。
图像被OCR。

基本上，我不需要最终的解决方案，而是从哪里开始寻找的一些方向。我知道如何做一个纯文本OCRing，我不知道如何执行步骤2和3.

在此先感谢。

来源

2012-04-08 bezmax

您是否决定文档布局？你可以添加程序可能寻找的一些占位符（如十字或类似模式）？ – 2012-04-08 12:50:17

不，我不能。但是，该文件通常具有白色背景，并且始终与周围背景形成高度对比（环境永远不会变白）。所以基本上，可以使用白色边框来确定形状。 – bezmax 2012-04-08 12:54:26

基本上，纯文本的OCR，特别是当涉及到非常好的扫描图像时， - 是一个很好解决的任务。您所描述的是更进一步的 - 图像预处理和数据采集的现场级识别。据我所知，开源引擎（甚至被认为是其中最好的tesseract）不提供这样的功能。

与此同时，专有的OCR引擎一直在解决您多年来描述的任务（花费巨大的人力资源），并且进展非常顺利。因此，如果您计划使用商业软件，我建议您查看http://ocrsdk.com，它是一个带有Web API的云OCR SDK。它可让您上传图像并将您发回的OCR数据。它已经内置了所有可能的图像预处理算法，因此您不必担心步骤2.至于步骤3 - 您可能想要参考其文档中的this section。我是开发该服务前端的团队的一员，所以我可以多说一点。希望能帮助到你！

来源

2012-04-09 11:21:40 Nikolay

复杂文档的OCR扫描

回答

相关问题