2016-07-15 80 views

回答

2

IMB CDRA是从大型机时代人物命名,让人联想到的Unicode的不同之处在于,我不认为它应该是编码的基础,更多的是标准的用于参考字符以一种独立于编码的方式...除了某些PDF文件包含其cmaps中字符的CDRA名称(称为GCGID s)(可能看起来像/SP080000),我们希望看到相应的U+002C(或COMMA),并且if我们希望将这些PDF中文本的内部编码转换为Unicode,因此我们需要一个转换表。

你可以在这里找到人类可读的转换表:https://www-01.ibm.com/software/globalization/gcgid/gcgid.html

机读表都很难找到,主要是因为广发链接最近打破。这是新的链接:http://download.boulder.ibm.com/ibmdl/pub/software/dw/java/cdctables.zip

请注意,这是一个非常缓慢的76​​MiB下载。另外要注意的是,这些表并不像人们可读的那样简单:不是一个GCGID到GCUID表(GCUID是IBM的一个Unicode表示),而是有数千个表在相同的编码对之间进行转换语言(或单语言encondings和Unicode之间),他们也列出GCGIDs为有他们的字符:

************************************************************************** 
* Name:   Mapping table from ISO 10646 to IBM CP 856. 
[..] 
*CP  UCS GCGID SYNONYM ISO 10646 NAME 
[..] 
1E  001E ...RS...   (CC) Record Separator 
1F  001F ...US...   (CC) Unit Separator 
20  0020 SP010000   SPACE 
21  0021 SP020000   EXCLAMATION MARK 
22  0022 SP040000   QUOTATION MARK 
23  0023 SM010000   NUMBER SIGN 
[..] 

只有这样,才能得到机器可读的映射将遍历所有的数千名转换表X和Unicode并收集所有GCGID-UCN对,如我在此处所做的:

https://gist.github.com/SonOfLilit/2a144d525b32978fd3ae1adddd27d621

如果链接发生变化,我可以通过点击链接到https://www-01.ibm.com/software/globalization/cdra/appendix_j.html来找到它,导致https://www.ibm.com/developerworks/views/java/downloads.jsp应该包含它但不包含它,然后过滤“所有区域”并搜索“字符数据转换表“。

相关问题