我有一个问题,每天在分布式环境中存储50Gb的日志。我查看了Hadoop HDFS,但由于它在Windows基础结构上运行时出现问题,缺乏多语言文件系统API,所以它不适合我。另一方面,卡桑德拉非常容易在任何平台上部署。我面临的唯一的大问题是磁盘空间的使用。下面是数字:Cassandra是否足够适用于根据磁盘空间使用情况存储日志?
- 原始日志文件的大小为224MB
- Cassandra的数据文件是557Mb
- 卡桑德拉索引文件了109M
所以我存储从日志行的时候得到了几乎2倍的开销日志文件。
是否有可能以某种方式调整Cassandra,因此它不会为非常简单的场景吃掉太多的磁盘空间?
mamu,please read http://stackoverflow.com/questions/2359175/cassandra-file-structure-how-are-the-files-used/2359282#2359282 – Schildmeijer 2010-06-28 21:04:44