group-by相关内容

SQL 到实体框架计数 Group-By

我需要将此SQL 语句转换为Linq-Entity 查询... SELECT name, count(name) FROM people按名称分组 解决方案 查询语法 var query = from p in context.People按 p.name 将 p 分组为 g选择新的{名称 = g.Key,计数 = g.Count()}; 方法语法 var query = contex ..
发布时间:2021-12-08 20:41:12 其他开发

使用 GROUP BY 与 DISTINCT 时的巨大性能差异

我正在一个 HSQLDB 服务器上执行一些测试,其中包含一个包含 500 000 个条目的表.该表没有索引.有 5000 个不同的业务键.我需要他们的清单. 当然,我从一个 DISTINCT 查询开始: SELECT DISTINCT business_key从记忆里WHERE 概念 '案例' 或属性 “状态"或价值 '关闭'; 大约需要 90 秒!!! 然后我尝试使用 ..
发布时间:2021-12-08 11:58:26 其他开发

.EACHI 在 data.table 中?

我似乎找不到关于 .EACHI 在 data.table 中究竟做了什么的任何文档.我在文档中看到了一个简短的提及: 聚合已知组的子集特别有效在 i 中传递这些组并设置 by=.EACHI 时.当 i 是一个data.table, DT[i,j,by=.EACHI] 为 DT 的组计算 ji 中的每一行都加入.我们称这种分组为每个 i. 但是DT 上下文中的“组"是什么意思?组是由DT ..
发布时间:2021-12-08 11:33:56 其他开发

pyspark collect_set 或 collect_list 与 groupby

如何在 groupby 之后在数据帧上使用 collect_set 或 collect_list.例如:df.groupby('key').collect_set('values').我收到一个错误:AttributeError: 'GroupedData' object has no attribute 'collect_set' 解决方案 你需要使用 agg.示例: from pys ..
发布时间:2021-12-06 14:17:36 其他开发

SQL 不是单组组函数

当我运行以下 SQL 语句时: SELECT MAX(SUM(TIME))来自下载按 SSN 分组 它返回客户下载的最大总和值,但是,如果我尝试通过将其添加到 select 语句中来查找该最大值所属的社会保险号: SELECT SSN, MAX(SUM(TIME))来自下载按 SSN 分组 我收到以下错误: 不是单组群功能 我不明白为什么它会抛出这个错误.谷歌搜索提出了以下操作 ..
发布时间:2021-12-06 08:11:00 数据库

没有聚合函数的 GROUP BY

我试图在没有聚合函数的情况下理解 GROUP BY (oracle dbms 的新手). 它是如何运作的? 这是我尝试过的. 我将在其上运行 SQL 的 EMP 表. SELECT ename , sal发件人按名称分组 SELECT ename , sal发件人按名称分组; 结果 ORA-00979:不是 GROUP BY 表达式 00979. 00000 - “不是 ..
发布时间:2021-12-05 23:49:59 数据库

GROUP BY + CASE 语句

我有一个工作查询,它​​按硬件型号和结果对数据进行分组,但问题是有很多“结果".我试图将其减少到 “如果结果 = 0,则保持为 0,否则将其设置为 1".这通常有效,但我最终有: 日 |姓名 |类型 |案例 |数数------------+----------------+------+------+------——2013-11-06 |型号A |1 |0 |9722013-11-06 |型 ..
发布时间:2021-12-05 21:30:35 其他开发

具有任意精度(低至毫秒)的 Postgresql SQL GROUP BY 时间间隔

我将测量数据存储在以下结构中: 创建表测量(在 TIMESTAMPTZ 测量,值整数); 我已经知道使用 (a) date_trunc('hour',measured_at) 和 (b) generate_series 我可以通过以下方式汇总我的数据: 微秒,毫秒... 但是是否可以将数据聚合 5 分钟或任意数量的秒数?是否可以以任意倍数的秒数聚合测量数据? ..
发布时间:2021-12-05 21:21:39 其他开发

在 mongodb 中按日期分组

我正在从事一个项目,我正在跟踪某个主题的点击次数. 我正在使用 mongodb,我必须按日期对点击次数进行分组(我想对 15 天的数据进行分组). 我在 mongodb 中有以下格式的数据存储 {"_id" : ObjectId("4d663451d1e7242c4b68e000"),"date" : "2010 年 12 月 27 日星期一 18:51:22 GMT+0000 (U ..
发布时间:2021-12-05 17:40:43 其他开发

如何通过键访问pandas groupby数据框

如何通过key访问groupby对象中对应的groupby数据框? 使用以下 groupby: rand = np.random.RandomState(1)df = pd.DataFrame({'A': ['foo', 'bar'] * 3,'B': rand.randn(6),'C': rand.randint(0, 20, 6)})gb = df.groupby(['A']) 我可 ..
发布时间:2021-12-03 09:23:16 Python

按熊猫数据框分组并在每组中选择最新的

如何对熊猫数据框的值进行分组并从每组中选择最新的(按日期)? 例如,给定一个按日期排序的数据框: id 产品日期0 220 6647 2014-09-011 220 6647 2014-09-032 220 6647 2014-10-163 826 3380 2014-11-114 826 3380 2014-12-095 826 3380 2015-05-196 901 4555 20 ..
发布时间:2021-12-03 09:20:14 Python

使用 pandas groupby 计算唯一值

我有以下形式的数据: df = pd.DataFrame({'组': [1, 1, 2, 3, 3, 3, 4],'param': ['a', 'a', 'b', np.nan, 'a', 'a', np.nan]})打印(df)# 组参数# 0 1 一个# 1 1 一个# 2 2 b# 3 3 NaN# 4 3 一个# 5 3 一个# 6 4 NaN 组内的非空值始终相同.我想为每个组(它存 ..
发布时间:2021-12-03 09:16:29 Python

Pandas Groupby 值范围

在 Pandas 中是否有一种简单的方法可以在一系列值增量上调用 groupby?例如,给出下面的示例,我可以使用 0.155 增量对 B 列进行分组和分组,例如,B 列中的前几个组> 分为 '0 - 0.155, 0.155 - 0.31 ...` 将 numpy 导入为 np将熊猫导入为 pddf=pd.DataFrame({'A':np.random.random(20),'B':np.r ..
发布时间:2021-12-03 08:57:32 Python

Pandas 数据框获取每组的第一行

我有一个如下所示的熊猫 DataFrame. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7],'价值':[“第一",“第二",“第二",“第一",“第二"、“第一"、“第三"、“第四"、“第五"、“第二"、“第五"、“第一"、“第一第二第三第四第五"]}) 我想按 ["id","value"] 将其分组并获取每组的第一 ..
发布时间:2021-12-03 08:57:05 Python

pandas groupby 在组内排序

我想将我的数据框按两列分组,然后对组内的聚合结果进行排序. 在[167]中:df出[167]:计算工作来源0 2 销售 A1 4 销售 B2 6 销售 C3 3 销售 D4 7 销售 E5 5 市场 A6 3 市场 B7 2 市场 C8 4 市场 D9 1 市场 E在 [168] 中:df.groupby(['job','source']).agg({'count':sum})出[168]:数数 ..
发布时间:2021-12-03 08:56:38 Python

Pandas groupby 多个字段然后比较

所以我的数据框看起来像这样: 日期网站国家得分0 2018-01-01 谷歌我们 1001 2018-01-01 谷歌频道 502 2018-01-02 谷歌我们 703 2018-01-03 谷歌我们 604 2018-01-02 谷歌频道 105 2018-01-01 FB 美国 506 2018-01-02 FB 美国 557 2018-01-03 FB US 1008 2018-01- ..
发布时间:2021-12-03 08:51:28 Python

Python:根据 Pandas 数据框中的两列(变量)获取频率计数,某些行应用程序

您好,我有以下数据框. 组大小短小短小中等 中等中小高大 我想计算同一行在数据框中出现的频率. 组大小时间短小2中等 中等 1中小 1高大 1 解决方案 您可以使用 groupby 的 size: 在 [11]: df.groupby(["Group", "Size"]).size()出[11]:团体人数中等 中等 1小1短小2高大 1数据类型:int64在 [12]: df.gr ..
发布时间:2021-12-03 08:47:09 Python