2011-03-31 104 views
1

我正在尝试将包含类别和标签的1000个文章网站(ASP SQL Server)导出到WordPress博客中。这些文章最初是用Microsoft Word编写的,并包含许多非UTF-8字符。然后他们被复制并粘贴到Microsoft Access中。这些文章目前存储在SQL Server 2008数据库中,并使用iso-8859-1字符集在网站上显示。将字符集ISO-8859-1转换为UTF-8编码

我使用默认的WordPress导入/导出xml文件(WordPress eXtended RSS(WXR)文件)从WordPress导出博客时使用的文件复制。该文件需要UTF-8编码。

我的问题是,ISO-8859-1字符打破进口商,许多文章没有完全导入。字符,如这些

naïve , 
and funny characters such as “ ’ 

我的问题是我怎么收拾所有的文字,我可以创造一个替换功能来清理搞笑语录,但总是会有一个随机单词一样幼稚,这将导致一个问题?

将所有文本的编码从iso-8859-1转换为UTF-8的最简单方法是什么?

回答

1

参见http://en.wikipedia.org/wiki/Iconv

的iconv是一种计算机程序,并用于不同的字符编码之间进行转换的标准化的API。

如果你被困在纯粹的Windows(即甚至没有Cygwin的),你不同意,这可能是最简单的将文件复制到Unix系统并执行那里的转换,http://www.unicodetools.com/有一堆的转换工具。