我正在处理大型数据集(数以百万计的记录,有时甚至是数百万),并且希望使用与R链接良好的数据库程序。我试图在mysql和sqlite。数据是静态的,但是我需要做很多查询。用于大型数据集的sqlite或mysql
在这种link to sqlite help,它指出:
“随着1024个字节的默认页面大小,SQLite数据库的大小限制为2个千兆字节(241个字节),即使它能够处理更大的数据库, SQLite将整个数据库存储在一个单独的磁盘文件中,许多文件系统将文件的最大大小限制为小于这个值,所以如果你正在考虑使用这种数据库,那么你最好考虑使用一个客户/服务器数据库引擎来传播其内容跨多个磁盘文件,也可能跨多个卷。“
我不确定这是什么意思。当我尝试使用mysql和sqlite时,似乎mysql更快,但我还没有构建非常严格的速度测试。我想知道,由于我的数据集的大小,对于我来说mysql是比sqlite更好的选择。上面的描述似乎表明,这可能是这种情况,但我的数据不在2TB附近。
有一个discussion on stackoverflow触及此并引用相同的SQLite信息页面,但它并没有完全解决这个问题。
我很感激任何洞察力来理解文件系统的最大文件大小的这种约束,以及这会如何影响索引表和运行查询的速度。这对我决定使用哪个数据库进行分析确实有帮助。
他说什么...... – Bohemian 2011-06-11 14:14:35