2014-09-29 57 views
1

我正在尝试使用Tesseract 3.02从应用程序中读取文本进行验证目的(自动测试)。如果字体很小(8到10),它总会给我不正确的结果。在将图像传递到tesseract之前,我遵循以下提到的图像处理。 1.将图像转换为GrayScale。 (图像格式JPG) 2.重新缩放的图像 3.将图像转换为300 DPI如何获得小字号的准确结果

对图像进行预处理后,将其传递给tesseract。我拥有的大部分应用程序图像都具有较小的字体大小。另外,我确保字体类型在训练数据中可用,但精度百分比仍然很低。

任何人都可以引导我,如果我失去了一些东西。

+0

我已经在这里发布了一个可能相关的答案:[stackoverflow.com/q/21827854/1679849](http://stackoverflow.com/q/21827854/1679849)。另外,请勿使用JPEG等有损图像格式。改用PNG。 – 2014-09-29 22:31:45

回答

0

我有阅读8点相同的问题。来自图像的文字。即使在尝试GrayScale之后,重新调整到400%也只是略有帮助。 Tesseract OCR对小字体文本不太好。我的同事建议我尝试Google Cloud Vision,网址为https://cloud.google.com/vision/。 Tesseract-OCR的准确度大约为50%,但Google Vision的准确率为100%。有一个Windows SDK在https://cloud.google.com/sdk/docs/#windows,也有样本.NET云视觉项目。我已经尝试过示例项目,它完美地处理了我的图像中的文本,这非常令人印象深刻,因为Tesseract-OCR只有大约50%的精确度。唯一的缺点是它是一种付费的基于云的服务,但至少可以免费试用。

相关问题