我正在尝试查找在多个方面都相同的数据条目。我目前做到这一点使用一个复杂的查询其巢汇总:在Elasticsearch中查找重复项目
{
"size": 0,
"aggs": {
"duplicateFIELD1": {
"terms": {
"field": "FIELD1",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD2": {
"terms": {
"field": "FIELD2",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD3": {
"terms": {
"field": "FIELD3",
"min_doc_count": 2 },
"aggs": {
"duplicateFIELD4": {
"terms": {
"field": "FIELD4",
"min_doc_count": 2 },
"aggs": {
"duplicate_documents": {
"top_hits": {} } } } } } } } } } } }
这个工程到一个程度,结果我得到的时候没有重复被发现是这个样子:
{
"took" : 5,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"failed" : 0
},
"hits" : {
"total" : 27524067,
"max_score" : 0.0,
"hits" : [ ]
},
"aggregations" : {
"duplicateFIELD1" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 27524027,
"buckets" : [
{
"key" : <valueFromField1>,
"doc_count" : 4,
"duplicateFIELD2" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
},
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
}
]
}
},
{
"key" : <valueFromField1>,
"doc_count" : 4,
"duplicateFIELD2" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
},
{
"key" : <valueFromField2>,
"doc_count" : 2,
"duplicateFIELD3" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : <valueFromField3>,
"doc_count" : 2,
"duplicateFIELD4" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [ ]
}
}
]
}
}
]
}
},
...
我跳过一些看起来很相似的输出。
我现在可以扫描这个复杂的深层嵌套数据结构,发现没有文档存储在所有这些嵌套桶中。但这似乎相当麻烦。我想这可能会有更好的(更直接的)方式。
另外,如果我想检查四个以上的字段,这个嵌套结构将会增长和增长。所以它不能很好地扩展,我想避免这种情况。
我可以改进我的解决方案,以便获得所有重复文件的简单列表吗? (也许是彼此重复的那些)或者是否有完全不同的方法(比如没有聚合),它没有我在这里描述的缺点?
编辑:我发现了一种使用ES here的脚本功能的方法,但是在我的ES版本中,这只返回错误消息。也许有人可以指出我如何在ES 5.0中做到这一点?到目前为止我的试验没有奏效。
编辑:我找到了一种方法来使用我的方法的脚本,它使用了现代的方式(语言“无痛”):
{
"size": 0,
"aggs": {
"duplicateFOO": {
"terms": {
"script": {
"lang": "painless",
"inline": "doc['FIELD1'].value + doc['FIELD2'].value + doc['FIELD3'].value + doc['FIELD4'].value"
},
"min_doc_count": 2
}
}
}
}
这似乎是在一个非常小的数据和结果的工作实际数据量的错误(circuit_breaking_exception
:[request] Data too large, data for [<reused_arrays>] would be larger than limit of [6348236390/5.9gb]
)。任何想法如何我可以解决这个问题?大概调整一些ES的配置,使其使用更大的内部缓冲区或类似的?
似乎并没有适合我的情况,避免以一般方式嵌套。
幸运的是,我的四个领域中有三个领域的价值范围非常有限;第一个只能是1或2,第二个可以是1,2或3,第三个可以是1,2,3或4.因为这些只是24个组合,所以我现在去过滤一个第24个完整数据集在应用聚合之前,然后是一个(剩余的第四个字段)。然后我必须全部应用24次(上述三个有限域的每个组合),但这比一次处理整个数据集更可行。
查询(即24个查询之一。)我立即是这个样子:
{
"size": 0,
"query": {
"bool": {
"must": [
{ "match": { "FIELD1": 2 } },
{ "match": { "FIELD2": 3 } },
{ "match": { "FIELD3": 4 } } ] } },
"aggs": {
"duplicateFIELD4": {
"terms": {
"field": "FIELD4",
"min_doc_count": 2 } } } }
这门课程的结果不再嵌套。但是,如果多于一个字段保存更大范围的任意值,则无法完成此操作。
我还发现,如果必须完成嵌套,那么值范围最大的字段(例如,只有两个值,例如“1或2”)应该在最里面,而值范围最大的值应该在最外面。这极大地提高了性能(但在我的情况下仍然不够)。做错了可以让你最终得到一个不可用的查询(几小时内没有响应,最后是服务器端的内存不足)。
我现在认为适当的聚合是解决像我这样的问题的关键。使用脚本有一个扁平桶列表的方法(如我的问题所述)必然会导致服务器过载,因为它无法以任何方式分配任务。在根本找不到double的情况下,它必须为内存中的每个文档保存一个桶(只有一个文档)。即使只能找到几个双打,对于更大的数据集也无法完成。如果没有其他可行的办法,则需要人工将数据组分组。例如,可以通过在相关字段之外构建散列来创建16个子数据集,并使用最后4位将文档置于16个组上。然后可以分别处理每个组;双打必然会落入使用这种技术的一组。
但是独立于这些一般想法,ES API应该提供任何方式来通过聚合结果进行分页。可惜没有这样的选择(但)。
在我看来,最好和正确的方法是在文档中创建一个新字段(当然,这意味着需要将数据重新索引到新索引中),该字段应包含您正在查找的字段组合。然后,在搜索时间,您可以在该单个字段上进行汇总。 –
如果您连接不同的字段,最好在它们之间添加一些分隔符,因此您更确定多个字段的合并与其他字段的合并不同。(例如'test'+'ing'='testing'=>'test'+'#'+'ing'<>'testing') – rvheddeg