2016-11-18 130 views
2

我有2.3 GB csv文件。当我使用R的data.table库中的fread函数读取它时,它会在第一列中添加''符号。fread函数更改大csv文件中第一列的名称

因此,我的数据的第一列是'HistoryID',在通过fread阅读后,它变为'HistoryID'。其他列不受影响。 是否有一个特定的编码应该用来解决这个问题?

当我读到read.csv函数中的数据时,如果我们使用'UTF-8-BOM'编码,这个问题就解决了,但是对于fread似乎并不起作用。

+0

edite问题并添加输入nad的例子添加您的程序 –

回答

0

据对CRAN的文档 - R-data.html#Variations-on-read_002etable

字节顺序标记仍然会导致编码的问题,并能与这样的处理:

it can be read on Windows by 
read.table("intro.dat", fileEncoding = "UTF-8") 

but on a Unix-alike might need 
read.table("intro.dat", fileEncoding = "UTF-8-BOM") 

检查部分2.1 Variations on read.table

它也似乎表明,read.csv使用这个技巧。