当我尝试在块中添加列和修改头名称等时,出现'TypeError:'TextFileReader'对象不支持项目分配'的错误。修改大块csv块?
我的问题是我使用慢工作笔记本电脑来处理一个相当大的文件(1000万行)。我想添加一些简单的列(1或0值),连接两列以创建唯一ID,更改其他列的dtype,并重命名某些标题,以便它们与稍后将合并的其他文件匹配。我可能可以拆分这个csv(也许选择日期范围和制作单独的文件),但我想学习如何使用块大小或一般处理大型文件,而不会遇到内存问题。是否可以修改文件块,然后将它们连接在一起?
我正在做一个原始数据清理,然后将其加载到Tableau中进行可视化。
例(读/修改1个千万行):
> rep = pd.read_csv(r'C:\repeats.csv.gz',
> compression = 'gzip', parse_dates = True , usecols =
> ['etc','stuff','others','...'])
> rep.sort()
> rep['Total_Repeats'] = 1
> rep.rename(columns={'X':'Y'}, inplace = True)
> rep.rename(columns={'Z':'A'}, inplace = True)
> rep.rename(columns={'B':'C'}, inplace = True)
> rep['D']= rep['E'] + rep['C']
> rep.rename(columns={'L':'M'}, inplace = True)
> rep.rename(columns={'N':'O'}, inplace = True)
> rep.rename(columns={'S':'T'}, inplace = True)
你现在在做什么?你能提供一些样品模式吗? – Scironic 2014-10-08 14:20:57
用示例编辑我的帖子。 – trench 2014-10-08 16:55:12