弹性搜索：聚集，通过场

计数我插入这个数据到弹性搜索：弹性搜索：聚集，通过场

[ 
    { "name": "Cassandra Irwin", "location": "Monzon de Campos" ..  }, 
    { "name": "Gayle Mooney",  "location": "Villarroya del Campo" .. }, 
    { "name": "Angelita Charles", "location": "Revenga de Campos" .. }, 
    { "name": "Sheppard Sweet", "location": "Santiago del Campo" .. }, 
    .. 
    ..

旁注：重现： 1）下载：http://wmo.co/20160928_es_query/bulk.json 2）执行：卷曲-s -XPOST' http://localhost:9200/testing/external/_bulk?pretty'--data-binary @ bulk.json

问题：获得每个“位置”有多少记录的计数。

解决方案1：桶聚合..不给所期望的结果

curl -s -XPOST 'localhost:9200/testing/_search?pretty' -d ' 
{ 
    "aggs": { "location_count": { "terms": { "field":"location", "size":100 }}} 
}' | jq '.aggregations'

结果：

{"location_count":{"doc_count_error_upper_bound":0,"sum_other_doc_count":0, 
"buckets":[ 
    {"key":"campo",  "doc_count":47}, 
    {"key":"del",  "doc_count":47}, 
    {"key":"campos", "doc_count":29}, 
    {"key":"de",  "doc_count":29}, 
    {"key":"villarroya","doc_count":15}, 
    {"key":"torre",  "doc_count":12}, 
    {"key":"monzon", "doc_count":11}, 
    {"key":"santiago", "doc_count":11}, 
    {"key":"pina",  "doc_count":9}, 
    {"key":"revenga", "doc_count":9}, 
    {"key":"uleila", "doc_count":9} 
]}}

问题：它将该 '位置' 字段成单词，并返回每个单词的文档数。

解决方案2：期望的结果，但性能方面的担忧。

我可以使用此查询，拿出所有的位置，并在做JQ聚集（在每一个方便的JSON CLI工具），但是当应用到大量数据，这可以变成一个性能噩梦做到这一点：

curl -s -XPOST 'localhost:9200/testing/_search?pretty' -d ' 
{ 
    "query": { "wildcard": { "location": "*" } }, "size":1000, 
    "_source": ["location"] 
}' | jq '[.hits.hits[] | 
      {location:._source.location,"count":1}] | 
      group_by(.location) | 
      map({ key: .[0].location, value: map(.count)|add })'

结果：

[ 
    { "key": "Monzon de Campos",  "value": 11 }, 
    { "key": "Pina de Campos",  "value": 9 }, 
    { "key": "Revenga de Campos",  "value": 9 }, 
    { "key": "Santiago del Campo", "value": 11 }, 
    { "key": "Torre del Campo",  "value": 12 }, 
    { "key": "Uleila del Campo",  "value": 9 }, 
    { "key": "Villarroya del Campo", "value": 15 } 
]

这是我想确切的结果。

问题：如何通过弹性搜索查询获得相同的结果？ （即与弹性搜索处理的聚集，而不是由JQ）

来源

2016-09-28 WillemM

你需要一个not_analyzed子字段添加到您的location领域。

首先修改您的映射是这样的：

curl -XPOST 'http://localhost:9200/testing/_mapping/external' -d '{ 
    "properties": { 
     "location": { 
     "type": "string", 
     "fields": { 
      "raw": { 
       "type": "string", 
       "index": "not_analyzed" 
      } 
     } 
     } 
    } 
}'

然后再重新索引数据：

curl -s -XPOST 'http://localhost:9200/testing/external/_bulk?pretty' --data-binary @bulk.json

最后，你就可以（在location.raw场）运行这样的查询并获得您期望的结果：

curl -s -XPOST 'localhost:9200/testing/_search?pretty' -d ' 
{ 
    "aggs": { "location_count": { "terms": { "field":"location.raw", "size":100 }}} 
}' | jq '.aggregations'

来源

2016-09-28 07:52:31 Val

现货！（我尝试过这个）。非常感谢您的快速和正确的答案！ – WillemM

真棒，很高兴它帮助！ – Val

弹性搜索：聚集，通过场

回答

相关问题