我需要读几个巨大的(> 400MB)CSV日志文件到R的文件看起来像:读取庞大的CSV文件非法EOL标记
ňVISIT_DATE REQ_URL TYPE_LEVEL
126424一分之二千〇一十三/ 25 23点42分34秒1 http://weibo.cn/attgroup/privateAtt?cat=user&f=atts
33559 2013年1月25日十五点15分54秒1 http://i.ifeng.com/mil/mili?vt=5&dh=touch&mid=aKUiAg
我使用下面的命令来阅读下载csv文件的内容。它适用于大多数数据。但是,REQ_URL
字段中有一些非法字符,如http://some.url/query=_1A_
,其中1A是十六进制代码,与LF标记十分相似。似乎scan
函数将这些字符视为EOL标记,并在遇到它们时停止。有什么办法让R忽略这些字符或被当作EOL标记吗?谢谢。
DAT <〜扫描(文件= 'sample.sv', 什么=列表( “整数”, “数字”, “字符”, “整数”), 月= '\ t' 的条。白= T,报价= “”, multi.line = F,跳过= 1)
为什么不在这里使用'read.table'? – agstudy 2013-04-05 18:44:09
日志文件的大小很大(> 400MB),'read.table'可能导致R崩溃。 – baidao 2013-04-06 03:30:08