2009-07-04 75 views
1

我不想知道它说了什么,它不会处理像验证码一样的任何失真,我只想知道图像的一堆是否包含任何文本。

快速字符检测

这是在一些空闲的Linux服务器上运行的东西,一个cron作业会每天处理大量的图像。

我想在这个过程中要做的事情之一就是放弃任何带有文本的图像。我不介意一些误报,但是当涉及识别应尽可能丢弃文本的图像时,我希望能达到零失败率。

回答

2

Tesseract-OCR是Google用于Google图书的内容。试一试。

+0

这似乎有点沉重,我想要做什么,我可能会回来,但如果我找不到更轻。 :) – joebert 2009-07-04 05:23:14