我在哪里可以找到IMB CDRA GCGID到Unicode字符数据转换表？

IMB CDRA是从大型机时代人物命名，让人联想到的Unicode的不同之处在于，我不认为它应该是编码的基础，更多的是标准的用于参考字符以一种独立于编码的方式...除了某些PDF文件包含其cmaps中字符的CDRA名称（称为GCGID s）（可能看起来像/SP080000），我们希望看到相应的U+002C（或COMMA），并且if我们希望将这些PDF中文本的内部编码转换为Unicode，因此我们需要一个转换表。

你可以在这里找到人类可读的转换表：https://www-01.ibm.com/software/globalization/gcgid/gcgid.html

机读表都很难找到，主要是因为广发链接最近打破。这是新的链接：http://download.boulder.ibm.com/ibmdl/pub/software/dw/java/cdctables.zip

请注意，这是一个非常缓慢的76MiB下载。另外要注意的是，这些表并不像人们可读的那样简单：不是一个GCGID到GCUID表（GCUID是IBM的一个Unicode表示），而是有数千个表在相同的编码对之间进行转换语言（或单语言encondings和Unicode之间），他们也列出GCGIDs为有他们的字符：

************************************************************************** 
* Name:   Mapping table from ISO 10646 to IBM CP 856. 
[..] 
*CP  UCS GCGID SYNONYM ISO 10646 NAME 
[..] 
1E  001E ...RS...   (CC) Record Separator 
1F  001F ...US...   (CC) Unit Separator 
20  0020 SP010000   SPACE 
21  0021 SP020000   EXCLAMATION MARK 
22  0022 SP040000   QUOTATION MARK 
23  0023 SM010000   NUMBER SIGN 
[..]

只有这样，才能得到机器可读的映射将遍历所有的数千名转换表X和Unicode并收集所有GCGID-UCN对，如我在此处所做的：

https://gist.github.com/SonOfLilit/2a144d525b32978fd3ae1adddd27d621

如果链接发生变化，我可以通过点击链接到https://www-01.ibm.com/software/globalization/cdra/appendix_j.html来找到它，导致https://www.ibm.com/developerworks/views/java/downloads.jsp应该包含它但不包含它，然后过滤“所有区域”并搜索“字符数据转换表“。

来源

2016-07-15 11:47:14

我在哪里可以找到IMB CDRA GCGID到Unicode字符数据转换表？

回答

相关问题