2011-06-11 41 views
2

我需要验证pdf报告是基于文本的(而不是基于位图;但它可能包含一些图像)。我不需要提取文本,只是为了验证它是基于文本的。如何使用ITextSharp验证pdf是基于文本的?

有没有办法如何使用ITextSharp库执行这样的验证?

由于提前,

斯特凡

+0

“基于文本”是什么意思?它至少有一个可提取的字符? – 2011-06-11 17:58:47

+1

是的,我不确定是否有必要划定这两者,特别是位图文本和“真实”文本可以共存。如果PDF包含一页文本后跟一个完整页面的图像,那么这会算作什么呢?如果图片实际上是一张照片呢? – duskwuff 2011-06-11 18:04:43

+0

我需要接受测试的代码。我知道pdf应该包含哪些文本/数据。我们的任务是确保从数据生成的pdf报告是“基于文本的” - 这意味着它不仅仅是pdf内的位图,它实际上包含了格式化的文本。 – stefando 2011-06-12 18:31:48

回答

1

你可以看看文字绘图命令很轻松了。你所做的最少的工作是试图提取文本,看看有没有什么东西。理想情况下,你会知道它应该包含的一些文本并搜索它。对于这种测试,单个句子或短语就足够了。

现在用iText进行文本提取是相当平凡的。很多例子都围绕着SO和网络而存在。

+0

我知道这有点旧,但是有没有机会发布一个小代码示例?我对iTextSharp完全陌生,甚至不知道开始使用哪个对象。我一定会对答案进行投票。 – flipdoubt 2012-01-09 15:16:32

相关问题