2012-01-30 66 views
1

我有大量(〜100GB)含有DNA序列的文件。他们在前两列订购。例如:将大型分类数据文件插入数据库

chr position allele coverage otherStuff 
1 1000  A   10   ... 
1 1001  C   1   ... 
2  10  A   10   ... 
X 1000  G   3   ... 
Y 1000  A   13   ... 

我想它们加载到数据库中,这样我就可以更有效地对它们进行查询(目前,我做一个全面的扫描,找到一定的地位,但由于它的排序应该是可能在O(log n)中执行)。我之前使用过MySQL的'load data infile',但是如果我希望在chr和position上创建一个索引,它会忽略数据已经排序并重新排序的事实。

有没有办法解决这个问题?我可以说服MySQL(或任何其他数据库,我没有受MySQL限制)我的数据是否已被排序?

在此先感谢!

+0

即使再次排序它,因为它已经排序,应该不会出现这样的问题。 MySQL排序的最佳情况应该是非常快的 – 2012-01-30 22:37:41

回答