2015-09-26 80 views
0

我开始玩熊猫了。解码错误 - 输出不是utf-8 - 熊猫/ python 2.7/excel/win

我下载了一个谷歌表。

当从Excel中读取一些数据在Win7:

xls = pd.ExcelFile('C:/Users/file.xlsx') 
data = xls.parse('Sheet 1', index_col=None, na_values=['NA']) 
print "Data", data 

我是一个越来越:

Decode error - output not utf-8 

原始Excel文件有文字和数字。

出了什么问题?

谢谢,

回答

0

尝试添加不同的编码参数如iso-8859-1。这里是一个详尽的list from the Internet Assigned Numbers Authority (IANA)。虽然数据可能看起来像合法的拉丁数字和文本,但根据起始情况,一个字符可能需要不同的字符集。

你也可以使用两个步骤的过程,ExcelFile或一步法,read_excel

ExcelFile

xls = pd.ExcelFile('C:/Users/file.xlsx') 
data = xls.parse('Sheet 1', index_col=None, na_values=['NA'], encoding='iso-8859-1') 
print data.head() 

read_excel

data = pd.read_excel('C:/Users/file.xlsx', 'Sheet 1', encoding='iso-8859-1') 
print data.head() 
+0

谢谢你的回答。不幸的是迄今为止没有工作我会继续尝试。 – Diego

+0

试试这个受欢迎的编码列表[这里](http://stackoverflow.com/questions/8509339/what-is-the-most-common-encoding-of-each-language)。通常字符集取决于文件来源的语言。 – Parfait

+0

谢谢你的名单。我正在导入的谷歌表是我的。我认为当我将它下载到我的电脑上的excel文件时可能会出现格式问题。你怎么看? – Diego

0

这是因为,您的数据编码将从ASC更改II拉丁文1。试试这个编码cp1252