2014-11-21 32 views
0

这更多的是关于在源代码管理下存储数据集的可行性的一般性问题。 我有20 000个csv文件,每天更新数字数据。目录的总体大小为100M字节左右,它们存储在本地磁盘上的ext4分区上。 每天的变化应该是约1kbyte的差异。源代码管理下的中等数据集

我可能需要对数据进行更正,因此我正在考虑对整个目录进行版本控制= 1,其中包含10个level1目录,每个包含10个level2目录,每个目录包含200个csv文件。

数据由python进程(熊猫框架)写入文件。 问题是关于写入的性能,其中的增量与整个数据相比较小。

svn和git让人想起,他们会有python模块来使用它们。 什么效果最好?

其他的解决方案,我相信可能的,但我会坚持保留数据文件,是...

回答

0

如果你问它是否会有效地把你的数据集版本控制之下,根据您的数据的描述,我相信答案是肯定的。 Mercurial和Git都擅长处理数千个文本文件。 Mercurial可能是一个更好的选择,因为它是用python编写的,比Git更容易学习。 (据我所知,现在没有充分的理由通过Subversion来实现一个新项目,因为现在有更好的工具可用。)

如果您问是否有办法通过借用代码来加速应用程序的写入一个版本控制系统,我认为让应用程序修改现有文件会容易得多。 (也许这就是你现在正在做的事情?从你写的东西来看并不清楚。)

+0

git python then ...它只是第一段。 – MMM 2014-11-21 20:57:53