2010-05-18 211 views

回答

2

CPAN给我“Unicode::Japanese”。希望这有助于开始。你也可以看Character Encodings in Perl和perl文档的文章unicode了解更多信息。

+0

s/artical/article/ – 2010-05-18 15:50:37

+0

布拉德,你有编辑权力。 :) – 2010-05-18 22:58:09

+0

为什么 - 是吗?这是唯一的错误:)。 – Space 2010-05-20 04:57:17

1

请参阅http://p3rl.org/UNI

use Encode qw(decode encode); 
my $bytes_in_sjis_encoding = "\x88\xea\x93\xf1\x8e\x4f"; 
my $unicode_string = decode('Shift_JIS', $bytes_in_sjis_encoding); # returns 一二三 
my $bytes_in_utf8_encoding = encode('UTF-8', $unicode_string); # returns "\xe4\xb8\x80\xe4\xba\x8c\xe4\xb8\x89" 

对于命令行批量转换,使用piconv

piconv -f Shift_JIS -t UTF-8 <infile> outfile 
0

首先,你需要找出源文本的编码,如果你不知道它了。

日本最常见的编码是:

  1. euc-jp:(常用于Unix系统和一些网页等比shift-jis更大Kanji报道)
  2. shift-jis(微软还增加了一些扩展,按住Shift JIS被称为cp932,这是经常使用的非Unicode Windows程序)
  3. iso-2022-jp是一个遥远的第三

许多语言的通用编码转换库是iconv(请参阅http://en.wikipedia.org/wiki/Iconvhttp://search.cpan.org/~mpiotr/Text-Iconv-1.7/Iconv.pm),它支持many other encodings以及日语。

0

这个问题对我来说似乎有点含糊,我不确定你在问什么。通常你会用这样的东西:

open my $file, "<:encoding(cp-932)", "JapaneseFile.txt" 

打开日文字符的文件。然后Perl会自动将其转换为内部的Unicode格式。