2011-05-18 60 views
0

我的CGPDFScanner实例正在扫描测试pdf文件。CGPDFScanner,Identity-H和解压缩

在给定时间,当前字体字典有EncodingIdentity-HFontDescriptor字典,其中键为FontFile2。此密钥恰好适用于流值,其字典的密钥为Filter。此密钥的值是FlateDecode

我不确定如何解释和使用此(例如,将下一个Tj块中的文本解压缩为Unicode)。例如,我只是zlib-解压缩下一个Tj块中的字节吗? (这里没有ToUnicode的钥匙。)

我以为所有的解压都是由CGPDFScanner实例进行的。

回答

0

如果字体使用Identity-H编码,并且它没有ToUnicode条目,则无法提取文本。 Tj运算符的参数是一系列字形索引,并且在没有ToUnicode条目的情况下,该序列不能转换为文本。

FontFile2条目存储实际的字体文件,从PDF文件中提取文本时没有任何作用。

+0

我明白了。苹果如何管理它?也许他们不......嗯。 – SK9 2011-05-18 11:08:14

+0

我不认为他们以任何方式管理它。你有没有试图从这样的文件复制文本?在这种情况下,Adobe Acrobat复制并粘贴空白字符。 – iPDFdev 2011-05-18 11:47:35

+0

我可以正确复制并粘贴(不是空白)。嗯。 – SK9 2011-05-18 12:14:03