1
我有大量(〜100GB)含有DNA序列的文件。他们在前两列订购。例如:将大型分类数据文件插入数据库
chr position allele coverage otherStuff
1 1000 A 10 ...
1 1001 C 1 ...
2 10 A 10 ...
X 1000 G 3 ...
Y 1000 A 13 ...
我想它们加载到数据库中,这样我就可以更有效地对它们进行查询(目前,我做一个全面的扫描,找到一定的地位,但由于它的排序应该是可能在O(log n)中执行)。我之前使用过MySQL的'load data infile',但是如果我希望在chr和position上创建一个索引,它会忽略数据已经排序并重新排序的事实。
有没有办法解决这个问题?我可以说服MySQL(或任何其他数据库,我没有受MySQL限制)我的数据是否已被排序?
在此先感谢!
即使再次排序它,因为它已经排序,应该不会出现这样的问题。 MySQL排序的最佳情况应该是非常快的 – 2012-01-30 22:37:41