我在使用PHP将ISO-8859-1数据库内容转换为UTF-8时遇到了一些问题。我运行下面的代码进行测试:PHP:从ISO-8859-1到“UTF-8”转换“'”字符时出现问题
// Connect to a latin1 charset database
// and retrieve "Georgia O’Keeffe", which contains a "’" character
$connection = mysql_connect('*****', '*****', '*****');
mysql_select_db('*****', $connection);
mysql_set_charset('latin1', $connection);
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection);
$latin1Str = mysql_result($result, 0);
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16);
// Try to convert it to UTF-8
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str);
// Output both
var_dump($latin1Str);
var_dump($utf8Str);
当我在Firefox中的源视图运行它,确保Firefox的编码设置为“西方(ISO-8859-1)”,我得到这个:
到目前为止,这么好。第一个输出包含奇怪的引号,我可以正确看到它,因为它在ISO-8859-1中,Firefox也是如此。
后,我改变Firefox的编码设置为 “UTF-8”,它看起来像这样:
哪里报价走?是不是iconv()
应该将其转换为UTF-8?
哇,我这样做,我看到U + 2019 UTF-8模式!但是使用“windows-1252”将大量数据从“ISO-8859-1”转换为“UTF-8”是否安全?换句话说,所有的ISO-8859-1字符是否仍能正确转换? – mattalxndr 2010-09-15 01:44:07
字符0x80-0x9F将无法正确转换。但这些是几乎从未使用的控制字符。 – dan04 2010-09-15 01:54:29
@mattalexx如果您检查该字符串中的字符并找到任何字符,则很有可能该字符串是在Windows-1252中编码的。如果你**没有找到该范围内的任何字符,则更可能是ISO-8859-1。 – 2011-06-13 20:27:06