aggregate相关内容

条件计算列中的最大值

我有下表: Class x2 x3 x414 45 53一个 8 18 1716 49 20乙 78 21 48乙 8 18 5 我需要为每个“类"(A 和 B)找到“X3"列中的最大值,保留该行并删除其他行. 输出格式应如下: Class x2 x3 x414 49 20乙 78 21 48 如果我的问题中有不清楚的地方,请向我提问. 谢谢! 解决方案 基本的 R 方 ..
发布时间:2021-11-16 23:10:57 其他开发

如何通过多个单独的组使用 R 进行相同的字段聚合

我正在尝试分别对几个(实际上是数百个)组(而不是所有组的所有组合)执行指标计数.我将通过简化示例来演示: 假设我有那个数据集 data 和一个指示器 some_indicator 然后我想在没有循环的情况下运行(例如按列应用),例如 aggregate(some_indicator,list(data[,1]),sum)聚合(some_indicator,列表(数据[,2]),总和 ..
发布时间:2021-11-16 23:03:14 其他开发

如何输出重复的行

我有以下数据: x1 x2 x3 x434 14 45 532 8 18 1734 14 45 2019 78 21 482 8 18 5 在第 1 行和第 3 行;和 2 和 5 列 X1;X2,X3 的值相等.如何仅输出相同数量的 4 行?输出应采用以下格式: x1 x2 x3 x434 14 45 5334 14 45 202 8 18 172 8 18 5 如果有不清楚的地方,请向 ..
发布时间:2021-11-16 23:00:19 其他开发

像 kayak.com 这样的网站如何聚合内容?

您好,我一直在琢磨一个新项目的想法,想知道是否有人知道像 Kayak.com 这样的服务如何能够如此快速准确地聚合来自这么多来源的数据.更具体地说,您认为 Kayak.com 是在与 API 交互,还是他们正在抓取/抓取航空公司和酒店网站以满足用户请求?我知道这类事情没有一个正确的答案,但我很想知道其他人认为什么是解决这个问题的好方法.如果有帮助,假设您明天要创建 kayak.com ...... ..
发布时间:2021-11-15 00:41:33 其他开发

如何使用spark sql过滤特定聚合的行?

通常一个组中的所有行都传递给一个聚合函数.我想使用条件过滤行,以便仅将组中的某些行传递给聚合函数.使用 PostgreSQL 可以进行此类操作.我想用 Spark SQL DataFrame (Spark 2.0.0) 做同样的事情. 代码可能如下所示: val df = ...//一些数据框df.groupBy("A").agg(max("B").where("B").less(10), ..

Scala-Spark 使用参数值动态调用 groupby 和 agg

我想编写一个自定义分组和聚合函数来获取用户指定的列名和用户指定的聚合映射.我不知道前面的列名和聚合映射.我想写一个类似于下面的函数.但我是 Scala 的新手,我无法解决它. def groupAndAggregate(df: DataFrame, aggregateFun: Map[String, String], cols: List[String] ): DataFrame ={val 分 ..
发布时间:2021-11-12 05:46:41 其他开发

使用 Kafka 作为 EventStore 时在 Flink 中恢复状态一致性

问题 我正在将微服务作为事件溯源聚合实现,而该聚合又作为 Flink FlatMapFunction 实现.在基本设置中,聚合从两个 kafka 主题中读取事件和命令.然后,它将新事件写入第一个主题,并在第三个主题中处理结果.因此,Kafka 充当事件存储.希望这张图有帮助: RPC 请求 RPC 结果||~~~~>命令-||--->结果~~~~~~||--> 聚合--|~>输入 evs ..

使用 Kafka 作为 EventStore 时在 Flink 中恢复状态一致性

问题 我正在将微服务作为事件溯源聚合实现,而该聚合又作为 Flink FlatMapFunction 实现.在基本设置中,聚合从两个 kafka 主题中读取事件和命令.然后,它将新事件写入第一个主题,并在第三个主题中处理结果.因此,Kafka 充当事件存储.希望这张图有帮助: RPC 请求 RPC 结果||~~~~>命令-||--->结果~~~~~~||--> 聚合--|~>输入 evs ..

聚合平均值“%H%M"在“周"中R中的垃圾箱

我已经为此苦苦挣扎了一段时间.我刚开始使用 ts 数据和所有相关的 R 包.我有一个 df 有几个变量,包括 GMT 中的“一天中的时间"“%H%M"和日期“%Y/%m/%e"采样发生.我想将我的日期数据分箱/聚合为“周"(即 %W/%g),并计算在该周进行采样时的平均“一天中的时间". 通过首先将我的 df 转换为动物园对象,然后使用如下所示的 aggregate.zoo 命令,我能够计算 ..
发布时间:2021-10-26 17:48:04 其他开发

r 聚合数据框:一些列未更改,一些列聚合

我曾尝试查看有关聚合、应用等的手册,但我找不到示例,其中某些列被正在应用的函数跳过,而其他列则按原样复制.示例: >olddf = data.frame(code=c("one","one","two"), val1=c(1,2,3), val2=c(4,5,6), val3=c(7),8,9))>旧版代码 val1 val2 val31 一 1 4 72 一 2 5 83 两个 3 6 9> ..
发布时间:2021-10-26 17:47:42 其他开发

求和时从长到宽重塑

我有以下示例数据 rankP 数量默认1 45925 11 369550 11 177975 11 157850 02 30400 12 93950 02 194075 13 30975 03 66775 13 225850 1 并且我想转换数据,以便获得每个等级、每个默认状态 (0/1) 的数量.所需的输出如下所示: rankP 0 11 157850 5934502 93950 2244 ..
发布时间:2021-10-26 17:47:39 其他开发

Mongoose.aggregate(pipeline) 使用 $unwind, $lookup, $group 链接多个集合

我是 mongodb 和 mongoose 聚合功能的新手,在通过我的管道传递数据后一直难以获得所需的结果. 下面我使用虚构的示例模型进行了简化 场景 我有 3 个模型(Ship、Yatch 和 Sailboat),它们共享接口并从基类扩展.第 4 个模型,Captain,它有一个数组 watercraftContexts,其中包含用于引用与每个 Captainwatercraf ..
发布时间:2021-10-26 17:47:33 其他开发

如何计算 r 中李克特类型响应的累积比例?

我正在尝试提供我的李克特式(5 分)调查结果的基本摘要.我知道我们如何使用聚合函数跨子组使用基本数学函数.例如,我可以生成子组中每个项目的均值,但我不知道如何获得所有项目中超过 2 个可能响应的出现百分比. 我一直使用 SPSS 来汇总子组中每个项目的正面响应(例如 4 和 5)的比例.因此,结果是,我收到了按子组细分的每个项目的积极响应(好感度)百分比. ### 我能产生什么聚合(数据集 ..
发布时间:2021-10-26 17:47:29 其他开发

Mongoose/Mongodb Aggregate - 对多个字段进行分组和平均

我有一个包含 2 个字段的 Post 模型:日期和评级.我将如何获得每个日期的平均综合评分?所以首先按日期分组,然后平均该日期所有帖子的评分.我需要在 mongoose 中执行此操作,但他们的文档很难理解. const PostSchema = new Schema({日期: {类型:字符串,default: getToday()//这只是一个新的Date()格式},评分: {类型:数字,要求: ..
发布时间:2021-10-26 17:47:25 其他开发

基于在 R 中重叠的多个条件的聚合

希望有人能帮助我:) 我有一个包含 3 列(ID、日期和项目)的(非常大的)数据集,每个 ID 和日期有多个行. 简化示例(请参阅下面的可重现示例) ID 日项目A 1 x185 氨基酸B 1 xc乙 102 毫升B 102 氨基酸乙 128 吨C 55 xxC 183 氨基酸 我想聚合数据,以便对于每个 ID,所有项目都按天数排列.注意(1)对于每个重复的一天应该有一个新的序列( ..
发布时间:2021-10-26 17:47:23 其他开发

向最近的值结果添加条件

mongoplayground 我的结果包括“mostRecentValues",我希望仅在它们不相同的情况下投影值.我的努力是添加条件以仅在 2 个值(在本例中为 mostRecentValues)之间发生变化时才显示. my_coll.create_index([('car_id',1),('timestamp',-1)], unique=True) 解决方案 当操作涉及打开和关闭 ..
发布时间:2021-10-26 17:47:20 其他开发

使用用户定义的函数聚合 df

我有一个关于使用用户定义的函数聚合 Pandas 数据帧的问题.如果我有一个数据框并在有或没有 groupby 的情况下运行 agg,则在使用内置函数时会聚合结果.另一方面,如果我使用自定义定义的函数,则在使用 groupby 时它会按预期工作.当不使用 groupby 时,不进行聚合.有没有办法在没有 groupby 的情况下使用自定义函数进行聚合?我知道可以只添加一个虚拟变量,但这不是首选的解 ..
发布时间:2021-10-26 17:47:17 Python