data-cleaning相关内容

R-确定哪些列包含货币数据$

我有一个非常大的数据集,其中有些列的格式设置为货币,某些数字和某些字符。读取数据时,所有货币列均被识别为因素,我需要将其转换为数字。数据集太宽,无法手动识别列。我正在尝试找到一种编程方式,以确定一列是否包含货币数据(例如,以“ $”开头),然后传递要清除的那列列表。 姓名 ..
发布时间:2020-10-13 04:35:49 其他开发

清洁线/ Coldfusion 9中的输入

我最近一直在使用 Coldfusion 9 (主要是PHP的背景知识),我正在摸索着试图弄清楚如何“清理/清理”用户提交的输入/字符串。 / p> 我想使它成为HTMLSAFE,消除通常的任何JavaScript或SQL查询注入。 我希望我已经忽略了CF9随附的某种功能。 有人可以指出我正确的方向吗? 解决方案 这是凯尔(Kyle)建议的补充,不是替代答案,但是评论面板中的链 ..
发布时间:2020-10-05 04:41:46 其他开发

从长数据集和大数据集中清除一列

我试图从长数据集和大数据集中仅清除一列.数据有18列,超过100k的csv文件超过10k行,我只想清理其中的一列. 从长列表中仅输入几个字段 userLocation, userTimezone, Coordinates, India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.52 ..
发布时间:2020-09-20 20:00:13 Python

从Excel字段中解析名字和姓氏

我在Excel中有一个字段(列),格式为“姓氏,名字中间字母",姓氏和名字后面的逗号之间有一个空格,中间名首字母和名字之间有第二个空格(否名字后面的逗号).有没有办法识别哪些单元格在右侧具有中间的首字母,然后消除所有单元格的中间的首字母,以使输出看起来像"LastName,FirstName"? 谢谢! 解决方案 您想要做的是能够将字段解析为多个字段,然后使用简单的excel公式重新 ..
发布时间:2020-07-23 00:54:32 其他开发

按组求和并附加结果

数据集 HAVE 是来自 Recess 字符的电话数据的小巧边缘列表: 学生朋友nCalls TJ Spinelli 3 TJ Gretchen 7 TJ Gus 6 TJ Vince 8 TJ King Bob 1 TJ Mikey 2 Spinelli TJ 3 Spinelli Vince 2 Randall Finster女士17 ..
发布时间:2020-06-06 19:24:34 其他开发

熊猫|分组依据,该组的所有值以逗号分隔

根据应用程序的要求,我需要以逗号分隔的格式显示分组依据的所有数据,以便管理员可以做出决定.我是Python的新手,不确定如何做. 可复制的数据样本 import pandas as pd compnaies = ['Microsoft', 'Google', 'Amazon', 'Microsoft', 'Facebook', 'Google'] products = ['OS', ..
发布时间:2020-05-24 02:11:24 Python

如何删除数据框中的回车

我有一个数据框,其中包含名为id,country_name,location和total_deaths的列.在执行数据清理过程时,我在附加了'\r'的行中遇到了一个值.完成清理过程后,将结果数据帧存储在destination.csv文件中.由于上面的特定行已附加\r,因此始终会创建一个新行. id 29 location ..
发布时间:2020-05-24 02:00:55 Python

通过熊猫中其他值的比率来填充缺失值

我在Pandas的数据框中有一个列,缺少大约78%的值. 剩余的22%值按以下比率分为三个标签-SC,ST,GEN. SC-16% ST-8% GEN-76% 我需要用上面的三个值替换缺失的值,以便所有元素的比例与上面相同.只要比例保持在上面,分配就可以是随机的. 我如何做到这一点? 解决方案 从此DataFrame开始(仅用于创建类似于您的数据): impo ..
发布时间:2020-05-24 01:10:48 Python

熊猫中的多列分解

pandas factorize函数将系列中的每个唯一值分配给基于0的顺序索引,并计算每个系列条目所属的索引. 我想在多列上完成pandas.factorize的等效功能: import pandas as pd df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1]}) pd.factorize(df)[0 ..
发布时间:2020-05-24 00:03:17 Python

在类型为float或特定类型的Pandas中查找数据框的所有列?

我有一个数据框df,其中有一些类型为float64的列,而其他的则是对象.由于混合的性质,我不能使用 df.fillna('unknown') #getting error "ValueError: could not convert string to float:" 因为错误发生在类型为float64的列上(这是一个令人误解的错误消息!) 所以我希望我可以做类似的事情 f ..
发布时间:2020-05-23 23:54:50 Python

如何在特定条件下提取大熊猫中的某些? (情感分析)

图片就是我的数据框的样子.我有用户名,电影名和时间列.我只想提取某些电影第一天的行.例如,如果电影a在时间列中的第一个日期是2018-06-27,我希望该日期中的所有行,并且如果电影b在时间列中的第一个日期是2018-06-12,则我只希望那些行.我要如何处理大熊猫? 解决方案 我假定 time 列为 datetime 类型.如果没有,将其转换 列调用 pd.to_datetime . ..
发布时间:2020-05-18 23:50:13 Python