1
我从众多的CSV文件中捕获了大量数据。某些信息已被刻画出来。我剖开的一个部分是一个有大量各种文本格式的部分。其中一些是情绪和其他非标准文本。以“原始”格式输出字符串数据
将此数据输出为HTML格式时,我有错误。目前我有以下错误:
UnicodeDecodeError: 'charmap' codec can't decode byte 0X90 in Position: character maps to <undefined>.
该程序当前将信息存储到字符串的数组中。然后将数组写入HTML文件。
任何想法如何克服这个问题在Python 3.2或如何实现字符缓冲区?
UPDATE
我曾尝试下面的意见和也做更多的研究。
我已经使用这个代码无济于事:
MessageArray.append(Message.encode('ascii', 'ignore'))
但我得到的错误: 类型错误:广东话转换“字节”对象隐含海峡。
输入数据是什么编码? CSV是文本文件,它们不应该包含“原始”二进制数据。您可能只需要使用正确的字符集读取CSV文件。 – millimoose 2012-07-26 14:05:44
“如果需要,可以提供代码片段。” - 是的,请。 – 2012-07-26 14:05:52
在unicode字符串的内部表示和二进制输出之间没有真正的“原始”方式进行编码/解码。 (除了UTF-32外,这很少用)。你可以在字节数组和字节数组之间切换(这里不是这种情况,因为CSV和HTML都是文本格式),或者你必须知道什么编码你的输入和输出文本在。 – millimoose 2012-07-26 14:10:47