如何对具有组合列表的 pandas 数据框进行分组? [英] How to group a pandas dataframe which has a list of combinations?

查看:79
本文介绍了如何对具有组合列表的 pandas 数据框进行分组?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个熊猫数据框,其记录记录相似.例如,rowid 123类似于rowid 512,rowid 123类似于681.从技术上讲,所有三行都是相似的.如何将相似的行分组?

I have a pandas dataframe which has results of record similarity. For example, rowid 123 is similar to rowid 512 and rowid 123 is similar to 681. Technically, all three rows are similar. How can I group similar rows?

请注意,我的数据具有组合-示例(123,512)和(512,123)

Note that my data has combinations - Example (123,512) and (512,123)

import pandas as pd
df = pd.DataFrame({'A': [123,123,512,412,412,536], 'B': [512,681,123,536,919,412]})
df

A   B
123 512
123 681
512 123
412 536
412 919
536 412

预期产量

Group1  123
Group1  512
Group1  681
Group2  412
Group2  536
Group2  919

推荐答案

您可以使用networkx确定连接的组.

You could use networkx to determine connected groups.

In [750]: import networkx as nx

In [751]: G = nx.from_pandas_dataframe(df, 'A', 'B')  # Create the graph

In [752]: Gcc = nx.connected_components(G)

In [753]: pd.DataFrame([{'id': i, 'group': 'group%s' % (g+1)}
     ...:               for g, ids in enumerate(Gcc) for i in ids])
Out[753]:
    group   id
0  group1  512
1  group1  681
2  group1  123
3  group2  536
4  group2  412
5  group2  919

这篇关于如何对具有组合列表的 pandas 数据框进行分组?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆