从数据帧中删除特殊字符和字母数字的简单方法 [英] Simple way to remove special characters and alpha numerical from dataframe

查看:0
本文介绍了从数据帧中删除特殊字符和字母数字的简单方法的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个包含x行和y列数的大型数据集。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难从数据帧中删除它。

nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', 'xd9x85xd8xb7xd8xa7xd8xb1', 'xd8xa3xd8xa8xd9x88', 'xd8xb8xd8xa8xd9x8a', 'xd8xa7xd9x84xd8xafxd9x88xd9x84xd9x8a', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', 'xd1x81xd0xbfxd0xbexd0xbaxd0xbexd0xb9xd0xbdxd0xbexd0xb9', 'xd0xbdxd0xbexd1x87xd0xb8', 'xd9x84xd9x8axd9x84xd8xa9', 'xd8xb3xd8xb9xd9x8axd8xafxd8xa9!', 'xd8xa3xd8xa8xd9x88', 'xd8xb8xd8xa8xd9x8a', 'Viceroy', 'Hotel,', 'Yasxe2x80xa6']
每个不是单词的字符都将被删除,这只是大数据集中的一列。列名为nonhashtag

清理列的简单方法是什么。立即删除它们或替换为NAN

预期输出

nonhashtag
    ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
    ['Just', 'posted', 'photo', 'Rasim', 'Villa']
    ['Dhabi', 'International', 'Airport', '(AUH)', 'Dhabi']
    ['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
    ['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
    ['Buona', 'notte', 'Viceroy', 'Hotel,']
[]是该特定列中的一行,因此只需要删除x and remaining characters,该行中应保留空的[]。保留该行很重要,因为其他列的该行填充了所需的信息。

要编写正确的代码,我无法通过输入读取,因为我无法在数据集中找到模式来编写正则表达式。

提前感谢您的帮助

推荐答案

我导入了很多文件,很多时候列名是脏的,它们得到了不需要的特殊字符,我不知道哪些字符可能会出现。我只希望列名中有下划线,不能有空格

df.columns = df.columns.str.strip()     
df.columns = df.columns.str.replace(' ', '_')         
df.columns = df.columns.str.replace(r"[^a-zA-Zd\_]+", "")    
df.columns = df.columns.str.replace(r"[^a-zA-Zd\_]+", "")

这篇关于从数据帧中删除特殊字符和字母数字的简单方法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆