2012-07-26 70 views
1

我从众多的CSV文件中捕获了大量数据。某些信息已被刻画出来。我剖开的一个部分是一个有大量各种文本格式的部分。其中一些是情绪和其他非标准文本。以“原始”格式输出字符串数据

将此数据输出为HTML格式时,我有错误。目前我有以下错误:

UnicodeDecodeError: 'charmap' codec can't decode byte 0X90 in Position: character maps to <undefined>.

该程序当前将信息存储到字符串的数组中。然后将数组写入HTML文件。

任何想法如何克服这个问题在Python 3.2或如何实现字符缓冲区?

UPDATE

我曾尝试下面的意见和也做更多的研究。

我已经使用这个代码无济于事:

MessageArray.append(Message.encode('ascii', 'ignore')) 

但我得到的错误: 类型错误:广东话转换“字节”对象隐含海峡。

+0

输入数据是什么编码? CSV是文本文件,它们不应该包含“原始”二进制数据。您可能只需要使用正确的字符集读取CSV文件。 – millimoose 2012-07-26 14:05:44

+3

“如果需要,可以提供代码片段。” - 是的,请。 – 2012-07-26 14:05:52

+0

在unicode字符串的内部表示和二进制输出之间没有真正的“原始”方式进行编码/解码。 (除了UTF-32外,这很少用)。你可以在字节数组和字节数组之间切换(这里不是这种情况,因为CSV和HTML都是文本格式),或者你必须知道什么编码你的输入和输出文本在。 – millimoose 2012-07-26 14:10:47

回答

0

我能够通过以下@SilverbackNet的评论解决我的问题。虽然这不能解决我的整体问题,因为它能够从CSV导入和转换原始二进制数据,但可以忽略导致我提出问题的数据。