使用Ruby和Ubuntu进行光学字符识别

我是一名大学生，现在该再次购买教科书。本季度，我有超过20本书需要上课。通常情况下，这不会是一件大事，因为我只是将ISBN复制并粘贴到亚马逊。然而，国际标准书号在我学校的图书网站上被转换成了图像。我想要做的就是将ISBN转换为一个字符串，所以我不必手动输入每一个。我已经使用GOCR将图像转换为文本，但我想将它与Ruby脚本一起使用，这样我就可以自动执行该过程，并为我的同学做同样的事情。使用Ruby和Ubuntu进行光学字符识别

我可以导航到该网站。如何将图像保存到我的计算机上的文件（运行UBUNTU），使用GOCR转换图像，最后将其保存到文件中，然后使用我的Ruby脚本再次访问它们？

来源

2009-12-09 ryan

听起来像一个很酷的项目，如果ISBN图像存储在单个文件中，不应该太难。

这一切都可以在后台运行：

下载网页（网/ HTTP）
保存元数据+图像文件的每本书（回形针）
运行GOCR上的所有图片

所有你需要的是一个网址列表或一个履带式（机械化），然后你可能需要花几分钟时间编写解析器（见乔的职位）为大学的HTML页面。

来源

2009-12-09 22:12:08 klochner

GOCR起初似乎是一个不错的选择，但从我自己的“研究”中可以看出，质量对日常使用来说还不够充分。也许这可能会导致问题，这取决于图像输入。如果它不适合您，请尝试使用Google文档的“新增”功能，该功能允许您上传用于OCR的图像。然后，您可以使用一些谷歌的API（有吨在那里，我使用gdata-ruby-util这需要一些黑客，但。

你也可以使用的Tesseract-OCR的OCR部分检索结果，它也是开源和积极开发

对于检索部分，我还会坚持使用hpricot，超级强大，灵活。

来源

2009-12-09 22:35:05 moritz

使用Ruby和Ubuntu进行光学字符识别

回答

相关问题