2017-02-11 89 views
0

我已经开始学习Python以用于数据科学。我几乎每天都在使用R。我在第一步堆叠。我尝试使用Pandas read_csv文件方法导入csv文件。我在导入时编码文件时遇到问题。使用熊猫在Python中导入csv时出错

如果我read.csv使用来自R一切正常:

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8') 

,但如果我在Python中使用类似的代码:

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8') 

它返回一个错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte 

我怎么可能在R中导入一个带有“utf-8”编码的文件,但是不能在Python中导入?

如果我使用不同的编码(latin1或iso-8859-1),它会成功导入文件,但字符不会以正确的方式编码。

+0

好吧,我想'cp1250'编码工作得很好。 – Mislav

+0

请向我们展示一下'myfile.txt'的样本,以帮助我们更好地理解问题。 –

回答

0

即使我不明白为什么UTF-8能在R中工作,但在Python中不能工作,我发现cp1250编码工作正常。

-1

使用编码“UTF-16”。我用这个来解决我的问题,并发生同样的错误。

+0

你的意思是说使用'utf-16'解决了你的问题,或者你的意思是它仍然给你同样的问题? – Simon