CGPDFScanner，Identity-H和解压缩

我的CGPDFScanner实例正在扫描测试pdf文件。CGPDFScanner，Identity-H和解压缩

在给定时间，当前字体字典有Encoding值Identity-H和FontDescriptor字典，其中键为FontFile2。此密钥恰好适用于流值，其字典的密钥为Filter。此密钥的值是FlateDecode。

我不确定如何解释和使用此（例如，将下一个Tj块中的文本解压缩为Unicode）。例如，我只是zlib-解压缩下一个Tj块中的字节吗？（这里没有ToUnicode的钥匙。）

我以为所有的解压都是由CGPDFScanner实例进行的。

2011-05-18 SK9

如果字体使用Identity-H编码，并且它没有ToUnicode条目，则无法提取文本。 Tj运算符的参数是一系列字形索引，并且在没有ToUnicode条目的情况下，该序列不能转换为文本。

FontFile2条目存储实际的字体文件，从PDF文件中提取文本时没有任何作用。

2011-05-18 10:29:59 iPDFdev

我明白了。苹果如何管理它？也许他们不......嗯。 – SK9 2011-05-18 11:08:14

我不认为他们以任何方式管理它。你有没有试图从这样的文件复制文本？在这种情况下，Adobe Acrobat复制并粘贴空白字符。 – iPDFdev 2011-05-18 11:47:35

我可以正确复制并粘贴（不是空白）。嗯。 – SK9 2011-05-18 12:14:03

回答