2016-02-13 217 views
0

我正在尝试将pdf转换为Flint water crisis emails from Gov. Snyder的文本。基本上他们有从Outlook打印的20k +电子邮件页面,然后以.pdf的形式扫描。 (我知道,令人讨厌。)我已经尝试过各种工具,如Tesseract(直接和将Image.png转换为.tif与ImageMagik后),我只是得到一堆gobbledeegook。将pdf转换为txt

有没有人有任何其他建议如何处理这些文件?我可以在Acrobat Reader中打开它们并复制所有文本,但结果很差,格式不一致,因此编写一个脚本来清理它非常具有挑战性。

在此先感谢!

+0

备案时,一个免费软件/开源工具将是首选,因为我自己做这件事。 –

回答

1

OCR的质量直接取决于图像质量,文档格式和布局以及所使用的OCR技术的质量和正确配置。随着文档复杂性的增加,通常您将从免费的OCR转向更强大的商业解决方案,以实现更高的OCR结果。如果您需要格式保存,那么仅存在于少数商业OCR应用程序中。任何一家主要的OCR提供商都是您的答案。

考虑使用OCR-IT基于Web的API(www.ocr-it.com)进行此转换。 /市场上最高质量的OCR之一。我是该系统的原始开发人员之一,我们的目标是实现市场上的顶级质量。另外,如果这种转换是为了一个好的原因和人们的利益,由一个非营利组织,一个非商业项目,或者只是一个善意的个人项目,我的朋友和我想要帮助。我们自愿提供免费的大容量转换。我们提供我们的技能和高质量的OCR软件,以换取非货币补偿,例如在您的项目中提及,向我们分享关于我们的信息,传播有关我们的商誉等信息。

+0

刚发给你一封电子邮件... –