这更多的是关于在源代码管理下存储数据集的可行性的一般性问题。 我有20 000个csv文件,每天更新数字数据。目录的总体大小为100M字节左右,它们存储在本地磁盘上的ext4分区上。 每天的变化应该是约1kbyte的差异。源代码管理下的中等数据集
我可能需要对数据进行更正,因此我正在考虑对整个目录进行版本控制= 1,其中包含10个level1目录,每个包含10个level2目录,每个目录包含200个csv文件。
数据由python进程(熊猫框架)写入文件。 问题是关于写入的性能,其中的增量与整个数据相比较小。
svn和git让人想起,他们会有python模块来使用它们。 什么效果最好?
其他的解决方案,我相信可能的,但我会坚持保留数据文件,是...
git python then ...它只是第一段。 – MMM 2014-11-21 20:57:53