group-by相关内容

Python熊猫唯一值忽略NaN

我想在 groupby 聚合中使用 unique,但我不想在 unique 中使用 nan结果. 示例数据框: df = pd.DataFrame({'a': [1, 2, 1, 1, pd.np.nan, 3, 3], 'b': [0,0,1,1,1,1,1],'c': ['foo', pd.np.nan, 'bar', 'foo', 'baz', 'foo', 'bar']})a b ..
发布时间:2021-12-27 08:15:30 Python

如何在pandas中使用groupby根据另一列中的条件计算百分比/比例总计

我正在尝试研究如何在 Pandas 中使用 groupby 函数来根据给定的 Yes/No 标准计算出每年值的比例. 例如,我有一个名为 names 的数据框: 姓名 号码 年份 性别标准0 姓名1 789 1998 男 N1 名1 688 1999 男 N2 姓名1 639 2000 男 N3 name2 551 1998 男 Y4 name2 499 1999 男 Y 我可以使用 ..
发布时间:2021-12-27 08:15:21 Python

从 GROUP BY 中获取具有最高或最低值的行

在执行 GROUP BY 后,我正在尝试获取具有最高/最低编号的行: 这是我的测试数据 mysql>选择 * 从测试;+----+-------+------+|身份证 |价值 |姓名 |+----+-------+------+|1 |10 |第 1 行 ||2 |12 |第 2 行 ||3 |10 |第 2 行 ||4 |5 |第 2 行 |+----+-------+------+4 ..
发布时间:2021-12-27 08:15:12 数据库

排名 (RowNumber) 和分组的 SQL Server 查询

我有一个包含一些列的表:用户、类别、值 并且我想进行一个查询,该查询将按值为我提供所有用户的排名,但针对类别进行重置. 示例: user1 CategoryA 10user2 类别A 11user3 类别A 9user4 类别B 3用户 1 类别 B 11 查询将返回: 排名用户类别1 个用户 2 类别 A2 用户 1 类别 A3 user3 类别A1 个用户 1 类 B2用户4 ..
发布时间:2021-12-27 08:14:55 数据库

如何在 mysql 查询中从每个组中选择多个项目?

我有一些表单的论坛数据 post(author, thread_id, text) 对于每个作者,我想选择与该作者相关联的 10 个不同的 thread_ids(可能超过 10 个,数量会因作者而异). 我正在考虑使用 GROUP BY 对“作者"进行分组,但我无法理解如何表达每个组的 LIMIT,以及如何将每个组扩展回 10 行. 解决方案 这是“每组前 N 个"类型查 ..
发布时间:2021-12-27 08:14:48 数据库

Pandas - 在 groupby 之后将列转换为新行

我有一个熊猫数据框.我需要将某些列转换为行.数据框在每 3 行的前两列中具有相同的数据.因此,您将在我预期的数据框中看到,我还需要 6 列.我有以下数据框: shopCode 产品代码评分111 苹果 123 0.70111 苹果 456 0.75111 苹果 789 0.80222 橙色 142 0.66222 橙色 136 0.83222 橙色 623 0.76 我预期的数据框是: sh ..
发布时间:2021-12-27 08:14:41 Python

MYSQL删除所有count(*)=1的结果

我有一个标记有两个字段 sesskey (varchar32, index) 和 products (int11) 的表,现在我必须删除所有按 sesskey count(*) = 1 分组的行.我尝试了几种方法,但都失败了. 示例: delete from taged where sesskey in (select sesskey from taged group by sesskey ..
发布时间:2021-12-27 08:14:32 数据库

UPDATE FROM 子句中的 GROUP BY

我真的需要做这样的事情: 更新表t1设置 column1=t2.column1从表 t2内连接表 t3使用(第 2 列)GROUP BY t1.column2; 但是 postgres 说我有关于 GROUP BY 子句的语法错误.有什么不同的方法可以做到这一点? 解决方案 UPDATE 语句不支持 GROUP BY,参见 文档.如果您尝试使用 t2 中的相应行更新 t1,您需要使用 ..
发布时间:2021-12-27 08:14:11 其他开发

SQL COUNT* GROUP BY 大于,

我想选择具有出现次数的不同键,这个查询似乎起作用了: SELECT ItemMetaData.KEY, ItemMetaData.VALUE, count(*)来自项目元数据按 ItemMetaData.KEY 分组按计数排序(*)desc; 但我也想过滤这些结果,这意味着我只想要 count(*) 大于 2500 的地方,所以只会显示大于 2500 的出现,但是: SELECT *从(SE ..
发布时间:2021-12-27 08:14:03 其他开发

MySQL 左连接 + 最小

看似简单的 MySQL 问题,但我以前从未这样做过.. 我有两个表,项目和价格,具有一对多的关系. 物品表身份证、姓名价格表id、item_id、价格 哪里 prices.item_id = items.id 到目前为止我所拥有的: SELECT items.id, items.name, MIN(prices.price)来自项目LEFT JOIN 价格在 items.id = ..
发布时间:2021-12-27 08:13:53 数据库

是否可以在 Select 语句中使用 Aggregate 函数而不使用 Group By 子句?

到目前为止,我已经编写了聚合函数,然后是 Group By 子句,以查找基于 SUM、AVG 和其他聚合函数的值.我对 Group By 子句有点困惑.当我们使用聚合函数时,我需要在 Group By 子句中指定哪些列.否则有什么方法可以不使用 Group By 子句来使用聚合函数. 解决方案 SELECT 子句中所有没有聚合的列都需要在 GROUP BY 中 好: SELECT ..

如何一步重置所有组的DataFrame索引?

我试图将我的数据帧分成多个组 df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],'B' : ['1', '2', '3', '4','5', '6', '7', '8'],})分组 = df.groupby('A') 我有2组 A B0 富 12 富 34 富 56 富 77 富 ..
发布时间:2021-12-27 08:13:34 Python

如何使用熊猫查找重复名称?

我有一个 pandas.DataFrame,其中有一列名为 name 的列包含字符串.我想获取列中多次出现的名称列表.我该怎么做? 我试过了: funcs_groups = funcs.groupby(funcs.name)funcs_groups[(funcs_groups.count().name>1)] 但它不会过滤掉单例名称. 解决方案 如果你想找到重名的行(除了第一次看 ..
发布时间:2021-12-27 08:13:29 Python

如何按对象计算熊猫组列中的不同值?

我有一个 Pandas 数据框并将其按两列分组(例如 col1 和 col2).对于 col1 和 col2 的固定值(即对于一个组),我可以在 col3 中有几个不同的值.我想计算第三列中不同值的数量. 例如,如果我将其作为输入: 1 1 11 1 11 1 21 2 31 2 31 2 32 1 12 1 22 1 32 2 32 2 32 2 3 我想将此表(数据框)作为输出: ..
发布时间:2021-12-27 08:13:18 Python

group by 子句中的列顺序是否重要?

如果我有两列,一列具有非常高的基数,另一列具有非常低的基数(唯一的值数),我按哪个顺序分组有关系吗? 这是一个例子: 选择维度名称,维度类别,总和(一些事实)来自 SomeFact f在 f.dimensionKey = d.dimensionKey 上加入 SomeDim d通过...分组d.dimensionName, -- 大量的唯一值d.dimensionCategory -- 少 ..
发布时间:2021-12-27 08:13:11 数据库

如何使用 LINQ 对数据进行分层分组?

我有一些具有各种属性的数据,我想对这些数据进行分层分组.例如: 公共类数据{公共字符串 A { 获取;放;}公共字符串 B { 得到;放;}公共字符串 C { 得到;放;}} 我希望将其分组为: A1- B1- C1- C2- C3- ...- B2- ...A2- B1- ...... 目前,我已经能够使用 LINQ 对其进行分组,这样顶级组将数据除以 A,然后每个子组除以 B,然后每个 ..
发布时间:2021-12-27 08:13:05 其他开发

使用 Pandas 进行计数和排序

我有一个用于值的数据框形成一个文件,我通过该文件按两列分组,这些列返回聚合的计数.现在我想按最大计数值排序,但是出现以下错误: 键错误:'计数' 看起来 group by agg count 列是某种索引,所以不知道该怎么做,我是 Python 和 Panda 的初学者.这是实际代码,如果您需要更多详细信息,请告诉我: def answer_five():df = census_df ..
发布时间:2021-12-27 08:13:00 Python