2011-08-19 119 views
1

我需要从CRM软件获取XML文件。编码问题UTF-8

XML文件编码采用UTF-8编码,但存在一些“奇怪”字符,而且由于这些字符,我无法使用simple_xml解析文件。

例如:

<ROW ART_LIB="CAT NxA1 2008" /> 

的 “XA1” 炭存在。它是什么,以及如何将它编码为“好”字符?

好结果被解析为:

<ROW ART_LIB="CAT N° 2008" /> 

所以,实际上,解析xml文件,我这样做:

$fichier = utf8_encode(file_get_contents($inputfileName)); 
$xmlInput = simplexml_load_string($fichier); 

你有一个想法,以解决这个问题?

编辑:

感谢Jason可可的帮助下,我已经解决这个问题做到这一点:

function mac_roman_to_iso($string) 
{ 
return strtr($string, 
"\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa1\xa4\xa6\xa7\xa8\xab\xac\xae\xaf\xb4\xbb\xbc\xbe\xbf\xc0\xc1\xc2\xc7\xc8\xca\xcb\xcc\xd6\xd8\xdb\xe1\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf1\xf2\xf3\xf4\xf8\xfc\xd2\xd3\xd4\xd5Ð", 
"\xc4\xc5\xc7\xc9\xd1\xd6\xdc\xe1\xe0\xe2\xe4\xe3\xe5\xe7\xe9\xe8\xea\xeb\xed\xec\xee\xef\xf1\xf3\xf2\xf4\xf6\xf5\xfa\xf9\xfb\xfc\xb0\xa7\xb6\xdf\xae\xb4\xa8\xc6\xd8\xa5\xaa\xba\xe6\xf8\xbf\xa1\xac\xab\xbb\xa0\xc0\xc3\xf7\xff\xa4\xb7\xc2\xca\xc1\xcb\xc8\xcd\xce\xcf\xcc\xd3\xd4\xd2\xda\xdb\xd9\xaf\xb8\x22\x22\x27\x27-"); 
} 

$fichier = mac_roman_to_iso(file_get_contents($fichier)); 
$xmlInput = simplexml_load_string(utf8_encode($fichier)); 

,后,编码从ISO-8859-1价值UTF- 8与iconv()

+0

您是否100%确定远程文件的编码是UTF-8?如果将其视为ISO-8859-1,会发生什么情况,它看起来更好吗?如果远程文件提供的编码数据不正确,最好的办法是尝试让它们修复它(或者在可能的情况下重写编码) –

+0

为什么你'utf8_encode'它再次,如果你确定它已经是'UTF -8'编码。也许'$ fichier = utf8_decode(file_get_contents($ inputfileName));'会做诡计吗? – J0HN

+0

是的,它是UTF-8。当我将它转换为记事本++时,我得到它: bahamut100

回答

1

问题不在于UTF-8。问题是你的XML文件不是UTF-8编码,而是MacRoman编码。把它当作一个MacRoman编码文件,它应该可以正常工作。

1

理想情况下,我认为你不应该使用utf8_encode()或utf8_decode()。

您必须在应用程序的所有级别上声明相同的编码。

你检查了你的CRM,数据库,PHP文件,浏览器的默认编码吗?