我有一个数据文件,例如:将数据导入到数据帧额外逗号
ID,ORIG,TIME,TEXT
364,1,7-10-15,This works fine
16254,1,7-10-15,But, I don't work :(
9846,0,7-10-15,Neither, do, I
当我导入使用我试图让下面的大熊猫:
+-------+------+---------+----------------------+
| ID | ORIG | TIME | TEXT |
+=======+======+=========+======================+
| 3464 | 1 | 7-10-15 | This works fine |
+-------+------+---------+----------------------+
| 16254 | 1 | 7-10-15 | But, I don't work :(|
+-------+------+---------+----------------------+
| 9846 | 0 | 7-10-15 | Neither, do, I |
+-------+------+---------+----------------------+
使用我的脚本data_df = pd.read_csv('data.csv', low_memory=False)
,当我导入第一行时,一切都很好(没有设置索引)。
但是,由于第二行中有一个逗号,最初在ID中的数据移动到索引列,所有内容都向左移动1。
+-------+----+---------+-----------------+-----------------+
| | ID | ORIG | TIME | TEXT |
+=======+====+=========+=================+=================+
| 3464 | 1 | 7-10-15 | This works fine | NaN |
+-------+----+---------+-----------------+-----------------+
| 16254 | 1 | 7-10-15 | But | I don't work :(|
+-------+----+---------+-----------------+-----------------+
该模式重复,在最后一列中找到更多的逗号。一个可能solution这是重写文件,但我试图找到一种方法来简单地导入它,而不必重写每个文件(我有大约65 +)。
我的问题是:
是否有可能导入(每行)第一列到“ID”第二栏为“弊”第三栏为“时间”和其他一切“TEXT”?
你的数据实际上是否包含所有'+'和'-'以及'='? – DSM
不,它只是用于查看目的 – Leb
您可以添加实际输入看起来像 –