我想问问其他SO'ers对于用于索引时间序列的最佳品种数据结构的意见(又名列式数据,又名扁平线性)。最适合极大时间序列的品种索引数据结构
两种基本类型的时间序列的存在基于采样/离散特性:
普通离散(每个样品取与公共频率)
不规则离散(样品取在arbitary时间点),将被要求
查询:
在时间范围内的所有值[T0,T1]
在时间范围[T0,T1]是大于/小于V0
中的所有时间值中的所有值范围[T0,T1]是在数值范围[V0,V1]
的数据集由概括的时间序列(其排序越过不规则离散)的,和多变量的时间序列。所讨论的数据集大小约为15-20TB,因此处理是以分布式方式执行的 - 因为上述某些查询将导致数据集大于任何一个系统上可用的物理内存量。
在这种情况下的分布式处理还意味着调度所需的数据特定计算以及时间序列查询,以便计算尽可能接近数据发生 - 从而减少节点到节点的通信类似于map/reduce范例) - 在计算和数据的短时间内非常关键。
该指数应该能够应对的另一个问题是,绝大多数数据是静态/历史(99.999%),但是每天增加新数据,请考虑“在现场传感器“或”市场数据“。这个想法/要求是能够以尽可能低的延迟更新任何正在运行的计算(平均值,garch等),其中一些运行计算需要历史数据,其中一些数据将超过可合理缓存的数据。
我已经考虑过HDF5,对于较小的数据集,它可以很好/有效地工作,但随着数据集变大而开始拖动,而且前端没有本地并行处理功能。
寻找建议,联系,进一步阅读等。(C或C++的解决方案,库)
类型1-3的查询通常被称为“正交范围报告”。 – oldboy 2012-04-11 15:08:25
http://dba.stackexchange.com/questions/16583/using-an-rdbms-for-querying-tenth-of-terabytes-of-time-series-data – 2012-04-16 20:16:27
@Martin:谢谢你,但问题与只有一把锤子就是一切看起来像钉子 - 在高度面向db/dba的Q/A网站中提出这样一个问题,会带来轻微的偏见。 – 2012-04-17 05:25:21