场景:假设你在200张表中有90TB的文本。这是结构化的相关数据。可比较dbpedia只有更多的数据。任何真正的关系数据库和分布式数据库都可以完成这项工作。不要期望像社交网络那么多的更新,但是大约500read查询/ s20updates/s但是除了那些需要的主要功能是对数据库进行高速运行的大分析,因为数据将通过像apache mahout这样的机器学习被重新修改和改进不断。哪些用于大型结构化数据的数据库技术?
现在的第一个问题是,哪些数据库技术首先(或等待它们继续前进)首先使用相对低数量的Web浏览器来维护所有数据,但对分析/机器学习的高需求运行很快?其次,哪些其他数据库需要跟踪可能出现的特殊目的,哪些数据库需要应用,哪些数据库应该适用。
Cloudera/Brisk (Cassandra,Hive)
mysql(cluster), mariadb
Berkeley DB
drizzle, nimbusdb,
scidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)
mongodb
datadraw
neo4j
90 TB?你的手指一定会因为输入所有文字而受到伤害;-) – Johan 2011-04-21 08:20:50
你会在它上面运行什么类型的查询?请开始你的问题。 – 2011-04-21 09:23:08
您可能想在[DBA](http://dba.stackexchange.com/)站点上提出此问题。 – 2011-04-21 11:23:50