2015-08-14 107 views
0

我试图用C语言解析一个网页libcurl。由libcurl返回的特殊字符(ANSI?)

源网页看起来像这样。

“我们不必为过去的局限而解决问题。我们可以 检查并重新审视我们的旧观念“

然而,当它返回它似乎取代报价和撇号有特殊字符,并给了我这样的结果:

我们不必须解决过去的局限。我们可以 检查并重新审视我们的旧观念。

我还没有碰到这个和读书,好像它是一个编码/字符集的问题,虽然我不能够解决这个问题。

<meta http-equiv="Content-Type" content="text/html; charset=windows-1252"> 

这应该有什么效果吗?如果是这样,或者没有,问题是什么,我该如何解决这个问题?没有其他网站我已经处理了返回这个奇怪的结果。

源URL:http://jftna.org/pages/8-14.htm

+0

用于表示源网页中引号的实际字节值是什么? – dan04

+0

Lib curl不会解释您的HTML,因此标签不会有任何影响。最好让服务器发送适当的HTTP头文件,libcurl *可以解释这些头文件。 – Daniel

+0

我相信这个页面只能用于这个字符集。 – woahguy

回答

0

我肯定有更好的方法可以做到这一点,但我决定为便于只需更换十六进制值。

out = replace_all(out, "\x93", "\""); 

感谢您的阅读,如果有更好的方法,我会很高兴听到它!