2009-12-09 79 views
5

我是一名大学生,现在该再次购买教科书。本季度,我有超过20本书需要上课。通常情况下,这不会是一件大事,因为我只是将ISBN复制并粘贴到亚马逊。然而,国际标准书号在我学校的图书网站上被转换成了图像。我想要做的就是将ISBN转换为一个字符串,所以我不必手动输入每一个。我已经使用GOCR将图像转换为文本,但我想将它与Ruby脚本一起使用,这样我就可以自动执行该过程,并为我的同学做同样的事情。使用Ruby和Ubuntu进行光学字符识别

我可以导航到该网站。如何将图像保存到我的计算机上的文件(运行UBUNTU),使用GOCR转换图像,最后将其保存到文件中,然后使用我的Ruby脚本再次访问它们?

回答

2

听起来像一个很酷的项目,如果ISBN图像存储在单个文件中,不应该太难。

这一切都可以在后台运行:

  • 下载网页(网/ HTTP)
  • 保存元数据+图像文件的每本书(回形针)
  • 运行GOCR上的所有图片

所有你需要的是一个网址列表或一个履带式(机械化),然后你可能需要花几分钟时间编写解析器(见乔的职位)为大学的HTML页面。

3

GOCR起初似乎是一个不错的选择,但从我自己的“研究”中可以看出,质量对日常使用来说还不够充分。也许这可能会导致问题,这取决于图像输入。如果它不适合您,请尝试使用Google文档的“新增”功能,该功能允许您上传用于OCR的图像。然后,您可以使用一些谷歌的API(有吨在那里,我使用gdata-ruby-util这需要一些黑客,但。

你也可以使用的Tesseract-OCR的OCR部分检索结果,它也是开源和积极开发

对于检索部分,我还会坚持使用hpricot,超级强大,灵活。