aggregation

0热度

1回答

得到以下集合： db.test.insert({ "DateID" : 2084, "DBFileID" : 105657, "Size_MB" : 1427 }); db.test.insert({ "DateID" : 2085, "DBFileID" : 105657, "Size_MB" : 1427 }); db.test.insert({ "DateID" : 2086, "DBF

2热度

1回答

如何来分解由表

的列表的数据帧。如果我构建一个数据帧 # constructing df a <- c(rep("A", 3), rep("B", 3), rep("A",2)) b <- c(1,1,2,4,1,1,2,2) #c <- c("ir", "ir", "br", "ir", "us", "us", "ir", "br") c <- c(1, 2, 3, 4, 4, 4, 4, 5) df

3热度

1回答

弹性搜索查询最大值AGGS

我有这样的数据： Name Fees Collected Date Name1 100 2017-05-01T12:00:00 Name1 200 2017-05-02T12:00:00 Name2 500 2017-05-05T12:00:00 Name2 600 2017-05-06T12:00:00 Name3 1000 2017-05-

1热度

1回答

熊猫：为多列数据框实现groupby +聚合的优雅方法？

我有一个数据帧my_df，那么我想创建一个新的数据帧new_df。每个new_df列由groupbymy_id创建，然后取my_df中列的max。下面是我的代码，它工作正常。但是，我想知道有没有更好的方法？特别是在未来，我将处理数百列而不是仅仅6列？非常感谢！ tmp_df1 = my_df.groupby(['my_id'], as_index=False).col_A.agg({"max_A

0热度

1回答

pyspark - 创建Top3组和聚合其他组/行

我想创建一个新的数据帧，其中列type将成为topX基于最高count。将有一个附加类型（他人），这将是所有，而TYPEx的同一组的name总和。为DF： data = spark.createDataFrame([ ("name1", "type1", 2), ("name1", "type2", 1), ("name1", "type3", 4), ("name1", "typ

0热度

2回答

使用Spark Streaming定期保存计算结果？

我正在处理基于输入数据计算的某些聚合显示实时仪表板的要求。我刚刚开始探索Spark/Spark Streaming，我发现我们可以使用Spark Integration以微批实时计算并将其提供给UI仪表板。我的查询是，如果在Spark Integration作业启动后的任何时候，它停止/或崩溃，当它出现时它将如何从它上次处理的位置恢复。我知道Spark维护着一个内部状态，并且我们会为每个我们收

0热度

2回答

SQL查找最小列和其他列时，如果存在重复最小列

嗨我正在处理一个特定的情况下，我需要找到最小值和同一记录的另一列值时，最小值可以重复 Table A ColumnA ColumnB ColumnC 1 10 07/21/2017 1 9 07/22/2017 1 9 07/23/2017 2 20 07/23/2017 2 20 07/24/2017

0热度

1回答

Spark SQL - 聚合集合？

比方说，我有2个数据帧。 DF1在各行的列A中可以具有值{3,4,5}。 DF2在各行的列A中可以具有值{4,5,6}。我可以使用distinct_set（A）将这些集合到一组不同的元素中，假设所有这些行落入相同的分组中。在这一点上，我在结果数据框中有一个集合。无论如何要聚集那套与另一套？基本上，如果我有第一次聚合产生的2个数据帧，我希望能够汇总它们的结果。

0热度

1回答

Elasticsearch中的聚合解析

我有一个工作的elasticsearch查询，但我无法弄清楚如何使用java API解析返回值。看起来无论我怎样配置它，我都会遇到空值。查询在elastisearch是： GET user_profile/active_time/_search { "size" : 0, "aggregations" : { "agg1" : { "filter" :

0热度

1回答

正则表达式总捕获组

我有http://sqlfiddle.com/#!4/ecba5/4一个数据样本： with raw_data as(select 'a{ thing_a<1234:1.1>>thing_b<->>thing_c<T>>thing_d<F>>thing_f<F>>thing_g<F>>thing_h<F>>thing_i<F>>thing_x<F>>thing_y<F>>thing_z<F>>#