group-by相关内容
我有一个查询,它采用上次更新日期(时间戳,但作为 bigint(20) 列),如下所示: SELECT a.id_workorder, MAX(b.update_date) AS udpate_dateFROM main_log a,(SELECT MAX(log_date) AS update_date, log_id从日志_aGROUP BY log_id联盟SELECT MAX(log_d
..
我想在 groupby 聚合中使用 unique,但我不想在 unique 中使用 nan结果. 示例数据框: df = pd.DataFrame({'a': [1, 2, 1, 1, pd.np.nan, 3, 3], 'b': [0,0,1,1,1,1,1],'c': ['foo', pd.np.nan, 'bar', 'foo', 'baz', 'foo', 'bar']})a b
..
我正在尝试研究如何在 Pandas 中使用 groupby 函数来根据给定的 Yes/No 标准计算出每年值的比例. 例如,我有一个名为 names 的数据框: 姓名 号码 年份 性别标准0 姓名1 789 1998 男 N1 名1 688 1999 男 N2 姓名1 639 2000 男 N3 name2 551 1998 男 Y4 name2 499 1999 男 Y 我可以使用
..
在执行 GROUP BY 后,我正在尝试获取具有最高/最低编号的行: 这是我的测试数据 mysql>选择 * 从测试;+----+-------+------+|身份证 |价值 |姓名 |+----+-------+------+|1 |10 |第 1 行 ||2 |12 |第 2 行 ||3 |10 |第 2 行 ||4 |5 |第 2 行 |+----+-------+------+4
..
我是 Python 新手.我有一个巨大的 dataframe,有数百万行和 id.我的数据如下所示: 时间 ID X Y8:00 A 23 1009:00 乙 24 11010:00 乙 25 12011:00 C 26 13012:00 C 27 14013:00 A 28 15014:00 A 29 16015:00 D 30 17016:00 C 31 18017:00 乙 32 1901
..
我有一个包含一些列的表:用户、类别、值 并且我想进行一个查询,该查询将按值为我提供所有用户的排名,但针对类别进行重置. 示例: user1 CategoryA 10user2 类别A 11user3 类别A 9user4 类别B 3用户 1 类别 B 11 查询将返回: 排名用户类别1 个用户 2 类别 A2 用户 1 类别 A3 user3 类别A1 个用户 1 类 B2用户4
..
我有一些表单的论坛数据 post(author, thread_id, text) 对于每个作者,我想选择与该作者相关联的 10 个不同的 thread_ids(可能超过 10 个,数量会因作者而异). 我正在考虑使用 GROUP BY 对“作者"进行分组,但我无法理解如何表达每个组的 LIMIT,以及如何将每个组扩展回 10 行. 解决方案 这是“每组前 N 个"类型查
..
我有一个熊猫数据框.我需要将某些列转换为行.数据框在每 3 行的前两列中具有相同的数据.因此,您将在我预期的数据框中看到,我还需要 6 列.我有以下数据框: shopCode 产品代码评分111 苹果 123 0.70111 苹果 456 0.75111 苹果 789 0.80222 橙色 142 0.66222 橙色 136 0.83222 橙色 623 0.76 我预期的数据框是: sh
..
我有一个标记有两个字段 sesskey (varchar32, index) 和 products (int11) 的表,现在我必须删除所有按 sesskey count(*) = 1 分组的行.我尝试了几种方法,但都失败了. 示例: delete from taged where sesskey in (select sesskey from taged group by sesskey
..
我有一个包含 3 列的表 myTable.col_1 是一个 INTEGER,其他 2 列是 DOUBLE.例如,col_1={1, 2}, col_2={0.1, 0.2, 0.3}.col_1中的每个元素都由col_2的所有值组成,col_2对于col_1中的每个元素都有重复的值.第 3 列可以有任何值,如下所示: col_1 |col_2 |价值---------------1 |0.1
..
我真的需要做这样的事情: 更新表t1设置 column1=t2.column1从表 t2内连接表 t3使用(第 2 列)GROUP BY t1.column2; 但是 postgres 说我有关于 GROUP BY 子句的语法错误.有什么不同的方法可以做到这一点? 解决方案 UPDATE 语句不支持 GROUP BY,参见 文档.如果您尝试使用 t2 中的相应行更新 t1,您需要使用
..
我想选择具有出现次数的不同键,这个查询似乎起作用了: SELECT ItemMetaData.KEY, ItemMetaData.VALUE, count(*)来自项目元数据按 ItemMetaData.KEY 分组按计数排序(*)desc; 但我也想过滤这些结果,这意味着我只想要 count(*) 大于 2500 的地方,所以只会显示大于 2500 的出现,但是: SELECT *从(SE
..
看似简单的 MySQL 问题,但我以前从未这样做过.. 我有两个表,项目和价格,具有一对多的关系. 物品表身份证、姓名价格表id、item_id、价格 哪里 prices.item_id = items.id 到目前为止我所拥有的: SELECT items.id, items.name, MIN(prices.price)来自项目LEFT JOIN 价格在 items.id =
..
到目前为止,我已经编写了聚合函数,然后是 Group By 子句,以查找基于 SUM、AVG 和其他聚合函数的值.我对 Group By 子句有点困惑.当我们使用聚合函数时,我需要在 Group By 子句中指定哪些列.否则有什么方法可以不使用 Group By 子句来使用聚合函数. 解决方案 SELECT 子句中所有没有聚合的列都需要在 GROUP BY 中 好: SELECT
..
我试图将我的数据帧分成多个组 df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],'B' : ['1', '2', '3', '4','5', '6', '7', '8'],})分组 = df.groupby('A') 我有2组 A B0 富 12 富 34 富 56 富 77 富
..
我有一个 pandas.DataFrame,其中有一列名为 name 的列包含字符串.我想获取列中多次出现的名称列表.我该怎么做? 我试过了: funcs_groups = funcs.groupby(funcs.name)funcs_groups[(funcs_groups.count().name>1)] 但它不会过滤掉单例名称. 解决方案 如果你想找到重名的行(除了第一次看
..
我有一个 Pandas 数据框并将其按两列分组(例如 col1 和 col2).对于 col1 和 col2 的固定值(即对于一个组),我可以在 col3 中有几个不同的值.我想计算第三列中不同值的数量. 例如,如果我将其作为输入: 1 1 11 1 11 1 21 2 31 2 31 2 32 1 12 1 22 1 32 2 32 2 32 2 3 我想将此表(数据框)作为输出:
..
如果我有两列,一列具有非常高的基数,另一列具有非常低的基数(唯一的值数),我按哪个顺序分组有关系吗? 这是一个例子: 选择维度名称,维度类别,总和(一些事实)来自 SomeFact f在 f.dimensionKey = d.dimensionKey 上加入 SomeDim d通过...分组d.dimensionName, -- 大量的唯一值d.dimensionCategory -- 少
..
我有一些具有各种属性的数据,我想对这些数据进行分层分组.例如: 公共类数据{公共字符串 A { 获取;放;}公共字符串 B { 得到;放;}公共字符串 C { 得到;放;}} 我希望将其分组为: A1- B1- C1- C2- C3- ...- B2- ...A2- B1- ...... 目前,我已经能够使用 LINQ 对其进行分组,这样顶级组将数据除以 A,然后每个子组除以 B,然后每个
..
我有一个用于值的数据框形成一个文件,我通过该文件按两列分组,这些列返回聚合的计数.现在我想按最大计数值排序,但是出现以下错误: 键错误:'计数' 看起来 group by agg count 列是某种索引,所以不知道该怎么做,我是 Python 和 Panda 的初学者.这是实际代码,如果您需要更多详细信息,请告诉我: def answer_five():df = census_df
..