2015-12-21 41 views
0

usecase:作为数据的一部分,我正考虑在同一个RethinkDB表中存储各种schema.org类型的*实体。RethinkDB能否有效处理大量的稀疏?

鉴于schema.org的固有类型层次结构,某些属性由所有类型共享,某些属性仅在1种类型中可用,以及其中的所有内容。

例如:一个PersonOrganizationLocalBusiness,共享属性等namedescriptionpostalAddress等而一些仅用于由人,如firstName

将此映射到RethinkDB表中会导致许多实体的许多属性(Rethink说中的字段)为空。作为一个猜测,我会说一个字段平均大约90%的时间是空的。约有150个领域存在。

RethinkDB能够有效地处理这样一个稀疏的布局?这是一个很宽泛的问题我知道,但我在寻找类似的细节:

  • 如果我要建立这些领域的一些指标(不是全部)将空值消耗这些指标的空间?
  • 如果这些字段都允许多值,那么性能惩罚(cpu和mem)会是什么?即:阵列?

*)几百万,开始与

回答

0

RethinkDB稀疏数据效果很好。索引目前总是稀疏索引,因此索引不会被没有索引字段的文档混淆。