pandas - python列表重复项筛选分组

查看:171
本文介绍了pandas - python列表重复项筛选分组的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

有类似列表如下:

list =  ['aaa', 
'aaa', 
'aaa', 
'aaa', 
'ccc', 
'ccc', 
'aaa', 
'aaa', 
'aaa',
'aaa', 
'ccc', 
'ccc', 
'ccc', 
'aaa', 
'aaa', 
'ccc', 
'ccc', 
'ccc', 
'ccc', 
'ccc']

希望能得到如下列表

[
[aaa,aaa,aaa],
[aaa,aaa,aaa,aaa],
[aaa,aaa],
[...],
...
]

试了好久总是不行,太笨吧,求解答。

解决方案

前几位答主的思路让偶现在提炼出了问题正确的关键词(filter group),也意识到两个库有助于解决这类问题(itertools pandas)
放狗搜,找到的比较不错的答案特地贴在这里,供大家参考。

https://pythonpeixun.github.i...
知乎上有人问,Python中的列表按相同元素分割?
比如列表[0,0,0,1,1,2,3,3,3,2,3,3,0,0]分割成[0,0,0],[1,1],[2],[3,3,3],[2],[3,3],[0,0]

如何解决这样的问题呢?
首先说明,如果这样的题目都不能写出代码,原因在基本的循环判断没有搞清楚。
如果做这个习题,看黄哥的讲解,先要分析,分析看出是按照相邻元素是不是相同来分组。
设计解决方法,大问题化解为小问题,先化解为找出元素不相同的那个元素的索引,有这个索引后,再进行分组。

代码一:

# coding:utf-8


def group_by_element(lst):
    '''基本思路是先取得不同元素起始的索引值,
    再按照这个索引值取切片
    '''
    index = []
    result = []
    for i, _ in enumerate(lst):
        if i < len(lst) - 1 and lst[i + 1] != lst[i]:
            index.append(i + 1)

    result.append(lst[:index[0]])
    for i, item in enumerate(index):
        if i < len(index) - 1:
            result.append(lst[index[i]:index[i + 1]])
    result.append(lst[item:])
    return result

if __name__ == '__main__':
    lst = [0, 0, 0, 1, 1, 2, 3, 3, 3, 2, 3, 3, 0, 0]
    group = group_by_element(lst)
    print group

代码二:

# coding:utf-8


def group_by_element(lst):
    '''基本思路是先取得不同元素起始的索引值,
    再按照这个索引值,用生成器分组。
    '''
    index = []
    for i, _ in enumerate(lst):
        if i < len(lst) - 1 and lst[i + 1] != lst[i]:
            index.append(i + 1)

    def take(lst, n):
        for i in range(n):
            yield next(lst)

    if not hasattr(lst, 'next'):
        lst = iter(lst)

    begin = 0
    for item in index:
        x = list(take(lst, item - begin ))
        begin = item
        yield x

    yield list(lst)

if __name__ == '__main__':
    lst = [0, 0, 0, 1, 1, 2, 3, 3, 3, 2, 3, 3, 0, 0]
    group = group_by_element(lst)
    print list(group)

代码三:

# coding:utf-8


def group_by_element(lst):
    '''基本思路用一个二维list [[]], 遍历list
    判断前后元素是不是相等,如果相等添加到result[-1],如果
    不相等,需要添加一个空[]
    '''
    result = [[]]
    length = len(lst)
    for i in range(length):
        if i < length - 1:
            if lst[i] == lst[i + 1]:
                result[-1].append(lst[i])
            else:
                result[-1].append(lst[i])
                result.append([])

    result[-1].append(lst[i])
    return result

if __name__ == '__main__':
    lst = [0, 0, 0, 1, 1, 2, 3, 3, 3, 2, 3, 3, 0, 0]
    group = group_by_element(lst)
    print group

这篇关于pandas - python列表重复项筛选分组的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆