0
我有一些高度结构化的pdf文件,它们是我拥有的一些历史技术记录的扫描副本。大约有几千页(大约2K页),我试图自动提取涉及的信息。从pdf获取机械化数据提取和文本识别
下面的链接包含我在谷歌上找到的图片。我不拥有图片,但出于说明的目的,我试图提取与类似结构化“块”中的信息,并以编程方式使用所提取的信息进行操作。
所有的文本都是打印/打字的文本,理论上应该给出很好的精度。我愿意根据需要学习如何开展这项工作,但我不知道从哪里开始。我想知道
- 是否有付费程序在那里,实际上这自动吗?
- 有没有一种简单的方法,我可以简单地通过使用某些公开可用的代码库进行文本识别等自己编程?我知道很多不同的OCR工具,但我只是不知道如何以编程方式使用它们来从这样的块中包含的东西中提取东西(并且从扫描后块可以在位置上变化)
- 如果我需要聘请某人来完成这项工作,那么需要投入大量的努力才能生成一个能够实现这一目标的脚本?
这是一次性练习,这意味着它使事情变得“漂亮”和“防呆”(即不需要GUI)并不重要。
谢谢!
让我看看PDF2Data。我最初有点迷失在如何转换特定字段的设置格式以准确提取。这听起来可能是要走的路。 – Isa