2017-06-05 576 views
0

我使用 iText的 - >LocationTextExtractionStrategy,用于从PDF文本, 我看了2个不同的PDF和调试他们 对于第一次同我在 发现public void renderText(TextRenderInfo renderInfo)iText的TextRenderInfo不同的行为不同的PDF

法文本与词 如渲染:我有一个PDF格式的一些内容

ACCOUNT TYPE A/C. BALANCE (I) FIXED DEPOSITS (LINKED) BAL. (II)

在像环然后renderText方法呈现文本: ACCOUNT TYPE然后的A/C。 BALANCE(I),然后固定存款(链接)BAL。 (II)

现在,当我调试2 PDF格式与内容,并与信如渲染我有内容:

日期详细取款

然后通过循环renderText方法绘制文本: d然后一个然后然后Ê

我想知道它是如何呈现文字(意味着一段时间用单词重复,一段时间用一组单词重复一次,只用一个字母重复)?

+0

Bhushan,我的答案是否解释*“它是如何呈现文本”*还是您仍然有疑问? – mkl

回答

0

它是如何呈现文本(意味着单词一段时间迭代和一些时间与一组词,并与只用一个字母一段时间迭代)?

iText解析框架转发PDF文本绘制操作参数中使用的原子字符串。

因此,如果PDF通过字母逐个绘制文本,则每个字母将收到一个TextRenderInfo实例。如果它逐字地绘制文本,则每个单词将会收到一个实例。

+0

嗨mkl,有什么方法可以找出pdf绘制策略,任何方法或任何其他的东西,这将帮助我找出每个字母或单词的呈现细节。 – Baba

+0

*有什么方法可以找出pdf绘制战略的细节* - 是的,只需简单地分析通过'renderText'检索到的内容。 – mkl