我正在尝试将pdf转换为Flint water crisis emails from Gov. Snyder的文本。基本上他们有从Outlook打印的20k +电子邮件页面,然后以.pdf的形式扫描。 (我知道,令人讨厌。)我已经尝试过各种工具,如Tesseract(直接和将Image.png转换为.tif与ImageMagik后),我只是得到一堆gobbledeegook。将pdf转换为txt
有没有人有任何其他建议如何处理这些文件?我可以在Acrobat Reader中打开它们并复制所有文本,但结果很差,格式不一致,因此编写一个脚本来清理它非常具有挑战性。
在此先感谢!
备案时,一个免费软件/开源工具将是首选,因为我自己做这件事。 –