将大型分类数据文件插入数据库

2012-01-30 66 views 1 likes

我有大量（〜100GB）含有DNA序列的文件。他们在前两列订购。例如：将大型分类数据文件插入数据库

chr position allele coverage otherStuff 
1 1000  A   10   ... 
1 1001  C   1   ... 
2  10  A   10   ... 
X 1000  G   3   ... 
Y 1000  A   13   ...

我想它们加载到数据库中，这样我就可以更有效地对它们进行查询（目前，我做一个全面的扫描，找到一定的地位，但由于它的排序应该是可能在O（log n）中执行）。我之前使用过MySQL的'load data infile'，但是如果我希望在chr和position上创建一个索引，它会忽略数据已经排序并重新排序的事实。

有没有办法解决这个问题？我可以说服MySQL（或任何其他数据库，我没有受MySQL限制）我的数据是否已被排序？

在此先感谢！

来源

2012-01-30 Naviens

即使再次排序它，因为它已经排序，应该不会出现这样的问题。 MySQL排序的最佳情况应该是非常快的 – 2012-01-30 22:37:41

回答

对于那些基因组位置，您应该使用binning索引，如Kent所述& al。在http://genome.cshlp.org/content/12/6/996.full

也看到http://genomewiki.ucsc.edu/index.php/Bin_indexing_system和http://biostar.stackexchange.com/questions/957/the-bin-column-used-by-sam-ucsc

来源

2012-01-31 07:36:17 Pierre

将大型分类数据文件插入数据库

回答

相关问题