首页
Python
与列中的计数成比例地对 Pandas 数据框的行进行采样

与列中的计数成比例地对 Pandas 数据框的行进行采样 [英] Sample rows of pandas dataframe in proportion to counts in a column

查看：40 发布时间：2021/6/13 20:09:06 python pandas

本文介绍了与列中的计数成比例地对 Pandas 数据框的行进行采样的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个大约有 10,000,000 行的大熊猫数据框.每个代表一个特征向量.特征向量以自然组的形式出现，组标签位于名为 group_id 的列中.我想随机抽样 10% 说的行，但与每个 group_id 的数量成比例.

I have a large pandas dataframe with about 10,000,000 rows. Each one represents a feature vector. The feature vectors come in natural groups and the group label is in a column called group_id. I would like to randomly sample 10% say of the rows but in proportion to the numbers of each group_id.

例如，如果 group_id's 是 A, B, A, C, A, B 那么我希望我的一半采样行具有 group_id A，六分之二有 group_id B 六分之一有 group_id C.


For example, if the group_id's are A, B, A, C, A, B then I would like half of my sampled rows to have group_id A, two sixths to have group_id B and one sixth to have group_id C.
我可以看到熊猫函数sample 但我不确定如何使用它来实现这一目标.
I can see the pandas function sample but I am not sure how to use it to achieve this goal.
推荐答案
可以使用groupby和sample
You can use groupby and sample
sample_df = df.groupby('group_id').apply(lambda x: x.sample(frac=0.1))


                        这篇关于与列中的计数成比例地对 Pandas 数据框的行进行采样的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            对数据框中的随机行进行采样;
                        
                    
                    
                        
                            使用Pandas数据框按列对组值进行计数;
                        
                    
                    
                        
                            mysql对具有特定列的行进行计数;
                        
                    
                    
                        
                             pandas 根据特定列值对数据框中的行进行分组;
                        
                    
                    
                        
                            SQL对所有行进行计数，而不是对单个行进行计数;
                        
                    
                    
                        
                            在Matlab中对特定行进行采样;
                        
                    
                    
                        
                            如何基于Pandas数据框中的列表对索引行进行重新排序;
                        
                    
                    
                        
                            在Pandas数据框中的子组中对行进行排名的更快方法;
                        
                    
                    
                        
                            在满足条件的同时，在 R 中的数据框的子集中对每列的单行进行采样;
                        
                    
                    
                        
                            如何有效地对pandas DataFrame中的行组合进行采样;
                        
                    
                    
                        
                            使用 Pandas 使用特定列的权重对 DataFrame 进行采样;
                        
                    
                    
                        
                            按组对行进行计数;
                        
                    
                    
                        
                            JavaFX 8对"textarea"中的行进行计数.;
                        
                    
                    
                        
                            如何使用 RAND(seed) 对 MySQL 中的行进行采样?;
                        
                    
                    
                        
                            如何对Pandas数据框的选定列进行Pearson相关;
                        
                    
                    
                        
                            对样本大小大于DataFrame长度的行进行采样;
                        
                    
                    
                        
                            对 Pandas Dataframe 进行采样的最快方法?;
                        
                    
                    
                        
                            根据列名称对pandas数据框中的列进行重新排序;
                        
                    
                    
                        
                            使用php对html表中的行进行计数;
                        
                    
                    
                        
                            使用C对ASCII文件中的行进行计数;
                        
                    
                    
                        
                            如何对dplyr中的每n行进行非随机采样？;
                        
                    
                    
                        
                            对行进行分组和分页计数;
                        
                    
                    
                        
                            MySQL对行进行计数和排序;
                        
                    
                    
                        
                            按NaN计数的降序对数据框的行进行排序;
                        
                    
                    
                        
                            如何对每列应用不同功能的数据框进行重新采样?;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.