2010-09-15 84 views
5

我在使用PHP将ISO-8859-1数据库内容转换为UTF-8时遇到了一些问题。我运行下面的代码进行测试:PHP:从ISO-8859-1到“UTF-8”转换“'”字符时出现问题

// Connect to a latin1 charset database 
// and retrieve "Georgia O’Keeffe", which contains a "’" character 
$connection = mysql_connect('*****', '*****', '*****'); 
mysql_select_db('*****', $connection); 
mysql_set_charset('latin1', $connection); 
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection); 
$latin1Str = mysql_result($result, 0); 
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16); 

// Try to convert it to UTF-8 
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str); 

// Output both 
var_dump($latin1Str); 
var_dump($utf8Str); 

当我在Firefox中的源视图运行它,确保Firefox的编码设置为“西方(ISO-8859-1)”,我得到这个:

asd

到目前为止,这么好。第一个输出包含奇怪的引号,我可以正确看到它,因为它在ISO-8859-1中,Firefox也是如此。

后,我改变Firefox的编码设置为 “UTF-8”,它看起来像这样:

asd

哪里报价走?是不是iconv()应该将其转换为UTF-8?

回答

14

U + 2019右单引号标记不是ISO-8859-1中的字符。它是windows-1252中的一个字符,为0x92。实际的ISO-8859-1字符0x92是很少使用的名为“私用2”的C1 control character

这是很常见的误标 与 字符集标签ISO-8859-1的Windows 1252的文本数据。许多Web浏览器 和电子邮件客户端处理 MIME字符集ISO-8859-1为了 的Windows-1252字符 适应这种乱贴标签,但它是 不规范的行为,且要注意 注意避免产生这些 ISO-8859-1中的字符标记为 的内容。

看来,这是发生在这里的事情。将“ISO-8859-1”更改为“windows-1252”。

+0

哇,我这样做,我看到U + 2019 UTF-8模式!但是使用“windows-1252”将大量数据从“ISO-8859-1”转换为“UTF-8”是否安全?换句话说,所有的ISO-8859-1字符是否仍能正确转换? – mattalxndr 2010-09-15 01:44:07

+1

字符0x80-0x9F将无法正确转换。但这些是几乎从未使用的控制字符。 – dan04 2010-09-15 01:54:29

+1

@mattalexx如果您检查该字符串中的字符并找到任何字符,则很有可能该字符串是在Windows-1252中编码的。如果你**没有找到该范围内的任何字符,则更可能是ISO-8859-1。 – 2011-06-13 20:27:06

0

这将解决您的问题,假设您的网页标题charset是UTF-8:

// Opens a connection to a MySQL server 
$connection = mysql_connect ($server, $username, $password); 
$charset = mysql_client_encoding($connection); 
$flagChange = mysql_set_charset('utf8', $connection); 
echo "The character set is: $charset</br>mysql_set_charset result:$flagChange</br>";