2016-11-23 72 views
0

我不确定是否已正确理解Term Vectors API“期限矢量API”需要澄清

文件开始说:

返回在特定文档领域方面的信息和统计数据。文档可以存储在索引中或由用户人为提供。术语向量是默认实时的,而不是实时的。这可以通过将realtime参数设置为false来更改。

我猜,长期这里refered什么其他一些人也许会叫令牌?或者是term由我们在文档中获得的时间定义,我错过了它?

然后将文档说继续有三段的返回值:期限信息期限统计,并现场统计。我猜意思是term信息和统计信息不是这个API返回的唯一东西,对吗?

然后期限信息包括一个名为payloads场,这是没有定义,我不知道这意味着什么。

然后在现场统计,有文档频率的总和与总词频一个相当混乱的解释总和:

设置field_statistics为false(默认为true)会忽略:

文件计数(多少文件包含此字段)文件frequen的

总和资本投资者入境计划我想他们只是总和(文档频率的所有方面在这一领域的总和)

合计项频率(每学期总词频在这一领域的总和)

超过其在期间统计的报告的相应数值?

然后在部分行为它说:

术语和领域的统计数据是不准确的。没有考虑删除的文件。该信息仅为所请求文档所在的分片检索。因此,术语和字段统计信息仅作为相对度量值使用,而绝对值在此情况下无意义。默认情况下,当请求仿真文档的术语向量时,随机选择一个从中获取统计信息的分片。仅使用routing才能击中特定的分片。

那么哪一个呢?是否实时?或者是的期限信息是实时的还是期限统计现场统计仅仅是实际的近似值?

回答

2

我在猜测,这里的术语是指其他人会称之为令牌吗?或者是由我们在文档中获得的时间定义的术语,我错过了它?

termtoken是同义词,只是意味着什么出来的分析过程,并在Lucene的倒排索引已被索引。

然后文件继续说有三个部分的返回值:术语信息,术语统计和字段统计。我想这意味着术语信息和统计数据不是这个API返回的唯一东西,对吗?

默认情况下,调用返回术语信息和字段统计信息,但术语统计信息必须用&term_statistics=true明确请求。

然后术语信息包括一个称为有效载荷的字段,它没有定义,我不知道它的含义。

​​是Lucene的概念,很好地解释了here。术语有效载荷不可用,除非您的自定义分析器使用标记筛选器来提取它们。

在现场统计

然后,有文档频率的总和与总词频的总和具有相当混乱的解释:

[...]

我想他们只是总和超过在期限统计中报告相应的值?

“文档频率”的总和是该字段中每个词出现在同一文档中的次数。因此,如果该字段包含“大棕狐”,它将统计同一文件中出现“大”的次数,同一文件中出现“褐色”次数,同样出现“狐狸”次数。

“总词频率”的总和是每个词在该字段中出现的次数出现在Lucene索引(位于ES索引的单个分片)中的所有文档中。因此,如果该字段包含“大棕狐”,则会计算所有文档中出现“big”的次数,所有文档中出现“brown”次数,而“fox”出现次数相同。

那么哪一个呢?是否实时?还是说,术语信息是实时的,术语统计数据和现场统计数据仅仅是现实的近似值?

它是实时在默认情况下,这意味着refresh call由发行,以获得从Lucene索引新鲜信息_termvectors呼叫时。但是,统计信息只能从单个分片中收集,并不能提供整个ES索引的统计信息(可能由多个分片组成,因此有多个Lucene索引)。