2011-02-28 68 views
2

是否有可以OCR PDF(通常是通过扫描纸张创建的PDF)的库(或可执行文件),并将识别的文本注入到PDF中?可能是扫描图像背后的隐形文字。可以将OCR文本插入源PDF的OCR库

最好是开源的。

(目标:。我有Lucene的索引PDF文件的一个巨大的图书馆这将是更容易为Lucene来找到,如果PDF文件包含的文本什么的PDF相关)

+0

问题转移到https://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulk – 2018-02-16 13:42:08

回答

0

一个最好的选择是可能使用Abbyy FineReader,因为它会给你很多选项,包括创建隐藏文本。 www.abbyy.com我快速浏览了他们的网站,还发现他们的Transformer产品可能更适合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

0

如果PDF文件不包含文本,什么是Lucene的索引?

看看Docsplitt(https://github.com/documentcloud/docsplit)它可以使用Tesseract来执行OCR。你会得到一个纯文本文件,它反映了PDF的内容。您可以在这些文本文件之上构建Lucene索引,并在Lucene索引中存储对PDF的引用。查询Lucene索引后,您将获得包含对原始PDF的引用的文档列表。

+0

PDF不包含文本,它就像一个形象。我在另一个文件中有文本,并希望将其注入到PDF中。如果可能的话,我想不要碰到Lucene配置。我的问题不是关于Lucene(我引用Lucene来说明,但它可能是一个不可配置的桌面搜索工具,例如) – 2013-01-17 11:31:53

+0

如果是这样,这一个似乎是你的问题的解决方案:[链接](http:///stackoverflow.com/questions/3335126/itext-add-content-to-existing-pdf-file)。 IText是一回事,你也可以看看PDFbox。 – maneo 2013-01-17 20:52:10

+0

是的,一个解决方案可能会涉及像iText/PDFbox的确如此!但是,您链接的问题也会使文本显而易见。我想有一些很好的做法来嵌入不可见的文本,使用iText或PDFbox或其他。 – 2013-01-18 02:23:48