如何在存在噪音的情况下提供相关结果？

我使用的Tesseract 3.0.0和我碰上了以下问题：如何在存在噪音的情况下提供相关结果？

当有东西太小了，正方体承认它似乎它与其他片段合并。因此没有任何相关的结果被返回。

下图显示了3种情况。只有具有虚线的矩形被传递给tesseract。在矩形上是结果（V上的T表示新行）。

最后一种情况是问题一。有没有办法在这种情况下改进tesseract？

enter image description here

2011-02-09 zkunov

你可以把它通过拉伸图像有点类似案件1和2。条形码应该可以工作。 – 2011-02-09 13:07:47

这也会拉伸数字，并且在某些时候它们可能不可读。这在其他情况下也不适用。 – zkunov 2011-02-10 07:45:53

据我所知，正方体没有正确的图像分割，但（或文档分析，因为它是所谓的commertial OCR应用程序）。通常，OCR完成之前，图像获取的分割上分开的区域包含文字，图片，条码，线条等。然后，您只在文本上应用OCR，并且不会遇到刚描述的问题。

早期版本的Tesseract根本没有这种功能，而Tesseract应该只用作行识别器，或者称为字段级识别器，当您在较大图像的小段文本中使用它时。

我没有完全遵循3.0中引入的内容，可能它已经部分存在，但显然它不像预期的那样工作，正如你刚刚发现的那样。

还有另一个开源项目 - OCRopus，完全按照我描述的方式处理这个问题 - 首先分析Analisys（又名分段），然后才是OCR。他们的早期版本实际上是在分析步骤完成后使用Tesseract进行OCR。但后来他们推出了自己的OCR（这仍然不是很好），并将Tesseract插件支持列入优先级列表。

这里是你其实可以做些什么来解决你的问题：

如果您的图像有非常典型的结构，你可以尝试做一些愚蠢的分割并将它传递给正方体之前削减从图像中你自己的文字。但是，如果您希望支持多种图像，请将其忘掉。
您可以重复OCRopus并查看它们的分割是否适用于您的图像。如果是的话，那么你可以花一些时间使OCRopus + Tesseract一起工作。
好吧，如果你所做的不仅仅是为了好玩，而且你珍惜你的时间，我会建议你考虑像ABBYY这样的真正的OCR引擎。开箱即用的分段和OCR的准确性会更高，当然还有专业的客户支持。

免责声明：我工作的ABBYY

2011-02-10 10:14:14 Tomato

回答