直到最近,我的博客还使用了PHP和MySQL不匹配的字符编码设置。我已经解决了潜在的问题,但我仍然有大量充满垃圾的文本。例如,ï
已变成ï
。如何恢复通过字符编码wringer发送的文档?
是否有软件可以使用模式识别和统计来自动发现破损的文本并修复它?
例如,它看起来像U+00EF
(UTF-8 0xC3 0xAF
)已成为U+00C3 U+00AF
(UTF-8 0xC3 0x83 0xC2 0xAF
)。换句话说,十六进制编码已被用于代码点。这种模式发生在整个我的网站(看似随机)的非ASCII字符。
我编辑了我的帖子来澄清:它不只是这个字符。 我的意思是,我当然可以转储数据库,找到所有非ASCII字符序列,找到它们的原始值(在适当的情况下)并在整个文件中直接查找和替换...但我正在寻找更一般的解决方案 – phyzome 2009-09-14 14:03:45