我正在寻找解决方案来从pdf中删除/删除所有文本。我已经使用iTextSharp一段时间了,从PDF中提取文本很容易(在使用OCR的时候)。但是我找不到删除文本的选项。从PDF中删除文本
This solution坦率地说不适合我。
page.GetAsArray(PdfName.CONTENTS);
返回null对我来说,也使用PdfName.Text
时和其他一些我已经试过。
要使用的库并不重要,我只是认为iTextsharp应该能够做到这一点。但是,如果有另一个(免费)解决方案,把它
编辑:只是为了清楚,为什么我想从PDF文件
我想,以减少PDF文件的大小,删除所有文本。我通过降低pdf中图像的分辨率来做到这一点。然而,在很多情况下,矢量图像占据了大部分空间。所以我想到了以下内容: 删除所有文本,而不是将剩余的pdf(仅包含图像和向量)转换为位图(jpeg)。之后,我再次将文字粘贴在它上面。 另一种选择是将文本隐藏,但我认为这并不容易。
只是为了澄清,你试图删除从PDF文本,但保留图像的完整? –
准确地说,史蒂夫Czetty – Chumbawamba
为了更清楚地说明:你想删除所有可识别文本的痕迹,所以在它的地方是白色区域?或者你想将由字体组成的文本转换成小光栅图像,这样copy'n'pa'ing同一文本不再工作(但读取它仍然有效)?或者,将完整的PDF页面转换为一个光栅图像(而不是一组矢量对象),这样copy'n'paste不再起作用了? –