如何在日语中将日文字符转换为unicode？

你能指点我的工具将日文字符转换为unicode吗？如何在日语中将日文字符转换为unicode？

来源

2010-05-18 TopCoder

你是指从亚洲字符集。您需要先了解日语的哪种字符编码，然后才能做到这一点。 – 2010-05-18 08:51:22

CPAN给我“Unicode::Japanese”。希望这有助于开始。你也可以看Character Encodings in Perl和perl文档的文章unicode了解更多信息。

来源

2010-05-18 08:56:27 Space

s/artical/article/ – 2010-05-18 15:50:37

布拉德，你有编辑权力。 :) – 2010-05-18 22:58:09

为什么 - 是吗？这是唯一的错误:)。 – Space 2010-05-20 04:57:17

请参阅http://p3rl.org/UNI。

use Encode qw(decode encode); 
my $bytes_in_sjis_encoding = "\x88\xea\x93\xf1\x8e\x4f"; 
my $unicode_string = decode('Shift_JIS', $bytes_in_sjis_encoding); # returns 一二三 
my $bytes_in_utf8_encoding = encode('UTF-8', $unicode_string); # returns "\xe4\xb8\x80\xe4\xba\x8c\xe4\xb8\x89"

对于命令行批量转换，使用piconv：

piconv -f Shift_JIS -t UTF-8 <infile> outfile

来源

2010-05-18 09:26:25 daxim

首先，你需要找出源文本的编码，如果你不知道它了。

日本最常见的编码是：

euc-jp：（常用于Unix系统和一些网页等比shift-jis更大Kanji报道）
shift-jis（微软还增加了一些扩展，按住Shift JIS被称为cp932，这是经常使用的非Unicode Windows程序）
iso-2022-jp是一个遥远的第三

许多语言的通用编码转换库是iconv（请参阅http://en.wikipedia.org/wiki/Iconv和http://search.cpan.org/~mpiotr/Text-Iconv-1.7/Iconv.pm），它支持many other encodings以及日语。

来源

2010-05-18 11:02:54 cryo

这个问题对我来说似乎有点含糊，我不确定你在问什么。通常你会用这样的东西：

open my $file, "<:encoding(cp-932)", "JapaneseFile.txt"

打开日文字符的文件。然后Perl会自动将其转换为内部的Unicode格式。

来源

2010-05-18 15:24:21

如何在日语中将日文字符转换为unicode？

回答

相关问题