如何使用ITextSharp验证pdf是基于文本的？

我需要验证pdf报告是基于文本的（而不是基于位图;但它可能包含一些图像）。我不需要提取文本，只是为了验证它是基于文本的。如何使用ITextSharp验证pdf是基于文本的？

有没有办法如何使用ITextSharp库执行这样的验证？

由于提前，

斯特凡

2011-06-11 stefando

“基于文本”是什么意思？它至少有一个可提取的字符？ – 2011-06-11 17:58:47

是的，我不确定是否有必要划定这两者，特别是位图文本和“真实”文本可以共存。如果PDF包含一页文本后跟一个完整页面的图像，那么这会算作什么呢？如果图片实际上是一张照片呢？ – duskwuff 2011-06-11 18:04:43

我需要接受测试的代码。我知道pdf应该包含哪些文本/数据。我们的任务是确保从数据生成的pdf报告是“基于文本的” - 这意味着它不仅仅是pdf内的位图，它实际上包含了格式化的文本。 – stefando 2011-06-12 18:31:48

你可以看看文字绘图命令很轻松了。你所做的最少的工作是试图提取文本，看看有没有什么东西。理想情况下，你会知道它应该包含的一些文本并搜索它。对于这种测试，单个句子或短语就足够了。

现在用iText进行文本提取是相当平凡的。很多例子都围绕着SO和网络而存在。

2011-06-13 17:17:39

我知道这有点旧，但是有没有机会发布一个小代码示例？我对iTextSharp完全陌生，甚至不知道开始使用哪个对象。我一定会对答案进行投票。 – flipdoubt 2012-01-09 15:16:32

回答