我不确定是否已正确理解Term Vectors API。“期限矢量API”需要澄清
文件开始说:
返回在特定文档领域方面的信息和统计数据。文档可以存储在索引中或由用户人为提供。术语向量是默认实时的,而不是实时的。这可以通过将
realtime
参数设置为false来更改。
我猜,长期这里refered什么其他一些人也许会叫令牌?或者是term由我们在文档中获得的时间定义,我错过了它?
然后将文档说继续有三段的返回值:期限信息,期限统计,并现场统计。我猜意思是term信息和统计信息不是这个API返回的唯一东西,对吗?
然后期限信息包括一个名为payloads
场,这是没有定义,我不知道这意味着什么。
然后在现场统计,有文档频率的总和与总词频一个相当混乱的解释总和:
设置field_statistics为false(默认为true)会忽略:
文件计数(多少文件包含此字段)文件frequen的
总和资本投资者入境计划我想他们只是总和(文档频率的所有方面在这一领域的总和)
合计项频率(每学期总词频在这一领域的总和)
超过其在期间统计的报告的相应数值?
然后在部分行为它说:
术语和领域的统计数据是不准确的。没有考虑删除的文件。该信息仅为所请求文档所在的分片检索。因此,术语和字段统计信息仅作为相对度量值使用,而绝对值在此情况下无意义。默认情况下,当请求仿真文档的术语向量时,随机选择一个从中获取统计信息的分片。仅使用
routing
才能击中特定的分片。
那么哪一个呢?是否实时?或者是的期限信息是实时的还是期限统计和现场统计仅仅是实际的近似值?