所以,我在问最后的手段,因为我完全没有想法。对非法字符xml解析错误
我有一个Windows ASP.NET ASMX Web服务应用程序,返回一个序列化Person对象 - 名称,地址,电子邮件...等
但在XML一些属性非常古怪的编码,例如
(我不知道编码发生在哪里,我假设在序列化过程中)
googling those characters我看到它是“Windows-1252”编码。
问题“无效的Unicode字符”的解析错误在1252编码的位置的XML解析过程中发生,我发现,。
我该如何成功解析它?你建议什么解决方案?
感谢您的详细回答 - 我假设的数据是从word文件或类似的东西作为复制粘贴输入。 – bushman 2010-06-29 12:58:16
是的,对于范围为0x80-0x9F的C1控制代码(通常来自代码页1252智能引号被误解为ISO-8859-1),这是常见的,但0x1A控制代码不用于任何Word或我能想到的任何其他常见的现代Windows应用程序。 – bobince 2010-06-29 13:20:43
所以鲍勃,我无法控制数据对我来说是如何 - 是否有可怕的黑客攻击并将其从字符串中删除,或者是否有另一种方式来表示它 - 例如在序列化之前 - - 检查字符串是否为UTF-8合法。 – bushman 2010-06-29 13:44:40