以“原始”格式输出字符串数据

我从众多的CSV文件中捕获了大量数据。某些信息已被刻画出来。我剖开的一个部分是一个有大量各种文本格式的部分。其中一些是情绪和其他非标准文本。以“原始”格式输出字符串数据

将此数据输出为HTML格式时，我有错误。目前我有以下错误：

UnicodeDecodeError: 'charmap' codec can't decode byte 0X90 in Position: character maps to <undefined>.

该程序当前将信息存储到字符串的数组中。然后将数组写入HTML文件。

任何想法如何克服这个问题在Python 3.2或如何实现字符缓冲区？

UPDATE

我曾尝试下面的意见和也做更多的研究。

我已经使用这个代码无济于事：

MessageArray.append(Message.encode('ascii', 'ignore'))

但我得到的错误：类型错误：广东话转换“字节”对象隐含海峡。

来源

2012-07-26 Zeki Turedi

输入数据是什么编码？ CSV是文本文件，它们不应该包含“原始”二进制数据。您可能只需要使用正确的字符集读取CSV文件。 – millimoose 2012-07-26 14:05:44

“如果需要，可以提供代码片段。” - 是的，请。 – 2012-07-26 14:05:52

在unicode字符串的内部表示和二进制输出之间没有真正的“原始”方式进行编码/解码。（除了UTF-32外，这很少用）。你可以在字节数组和字节数组之间切换（这里不是这种情况，因为CSV和HTML都是文本格式），或者你必须知道什么编码你的输入和输出文本在。 – millimoose 2012-07-26 14:10:47

我能够通过以下@SilverbackNet的评论解决我的问题。虽然这不能解决我的整体问题，因为它能够从CSV导入和转换原始二进制数据，但可以忽略导致我提出问题的数据。

来源

2012-08-03 07:04:24

以“原始”格式输出字符串数据

回答

相关问题