可以将OCR文本插入源PDF的OCR库

是否有可以OCR PDF（通常是通过扫描纸张创建的PDF）的库（或可执行文件），并将识别的文本注入到PDF中？可能是扫描图像背后的隐形文字。可以将OCR文本插入源PDF的OCR库

最好是开源的。

（目标：。我有Lucene的索引PDF文件的一个巨大的图书馆这将是更容易为Lucene来找到，如果PDF文件包含的文本什么的PDF相关）

2011-02-28 Nicolas Raoul

问题转移到https://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulk – 2018-02-16 13:42:08

一个最好的选择是可能使用Abbyy FineReader，因为它会给你很多选项，包括创建隐藏文本。 www.abbyy.com我快速浏览了他们的网站，还发现他们的Transformer产品可能更适合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

来源

2012-04-27 04:06:44

如果PDF文件不包含文本，什么是Lucene的索引？

看看Docsplitt（https://github.com/documentcloud/docsplit）它可以使用Tesseract来执行OCR。你会得到一个纯文本文件，它反映了PDF的内容。您可以在这些文本文件之上构建Lucene索引，并在Lucene索引中存储对PDF的引用。查询Lucene索引后，您将获得包含对原始PDF的引用的文档列表。

来源

2013-01-17 10:33:03 maneo

PDF不包含文本，它就像一个形象。我在另一个文件中有文本，并希望将其注入到PDF中。如果可能的话，我想不要碰到Lucene配置。我的问题不是关于Lucene（我引用Lucene来说明，但它可能是一个不可配置的桌面搜索工具，例如） – 2013-01-17 11:31:53

如果是这样，这一个似乎是你的问题的解决方案：[链接]（http：///stackoverflow.com/questions/3335126/itext-add-content-to-existing-pdf-file）。 IText是一回事，你也可以看看PDFbox。 – maneo 2013-01-17 20:52:10

是的，一个解决方案可能会涉及像iText/PDFbox的确如此！但是，您链接的问题也会使文本显而易见。我想有一些很好的做法来嵌入不可见的文本，使用iText或PDFbox或其他。 – 2013-01-18 02:23:48

可以将OCR文本插入源PDF的OCR库

回答

相关问题