2009-09-25 76 views
0

如何生成包含特定语言环境中所有字符代码的文本文件,例如1029捷克语。我基本上想要生成一个字母表中存在的每个字符的列表?非英语语言中的特殊字符

+0

你使用什么语言/环境? – Konamiman 2009-09-25 07:36:38

回答

1

如果这是一个Windows区域,只是生成从32到255的所有字节的文件:语言环境的字节代码是相同的;他们只是以不同的方式解释每个字节有关链接,请参阅this page

示例:在德语代码页(1252 a.k.a ISO-Latin-1)中,字节0xa5代表捷克代码页(1250)中的“Ą”,而代表“¥”。

[编辑]请注意,这只适用于pre-Unicode语言环境,其中一个字节映射到一个字符。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

+0

这可能不会像你期望的那样在很多语言中使用,其中最着名的是中文,日文,泰文,韩文等。 – Epcylon 2009-09-25 09:58:12

+0

正确,它不适用于亚洲语言,但他想知道的不是Unicode。 – 2009-09-25 12:03:49

0

CLDR(通用语言环境数据存储库,http://cldr.unicode.org/)包含该信息。

但是,如果你使用Unicode处理所有事情,那么确实没有理由关心。 欧洲联盟现在有成员国使用横跨几个“传统”代码页的字符:西欧,东欧,土耳其,波罗的海,希腊,西里尔文。 Unicode是唯一的方法。