13
我有一个输入文件,其中每个值都以字符串形式存储。 它位于csv文件中,每个条目在双引号内。csv中的双引号元素不能读熊猫
示例文件:
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"
只有六列。我需要输入什么选项来读熊猫read_csv才能正确读取?
我目前正在尝试:
import pandas as pd
df = pd.read_csv(file, quotechar='"')
但是这给我的错误信息: CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14
这显然意味着它忽视了“'和分析每一个逗号作为字段 (“1,2,3”,“PR,SD,SD”,“PR,SD,SD”,“PR,SD,SD”)对于第3行,第3列至第6列应为带逗号的字符串。 )
如何获得pandas.read_csv来正确解析?
谢谢。
如果你善于用正则表达式,你可以在九月arguement用它来read_csv ... http://stackoverflow.com/questions/24091356/pandas-read-csv-with-final-column-containing -commas – rhaskett 2014-10-27 23:38:08