data-cleaning相关内容
我有一个非常大的数据集,其中有些列的格式设置为货币,某些数字和某些字符。读取数据时,所有货币列均被识别为因素,我需要将其转换为数字。数据集太宽,无法手动识别列。我正在尝试找到一种编程方式,以确定一列是否包含货币数据(例如,以“ $”开头),然后传递要清除的那列列表。 姓名
..
我最近一直在使用 Coldfusion 9 (主要是PHP的背景知识),我正在摸索着试图弄清楚如何“清理/清理”用户提交的输入/字符串。 / p> 我想使它成为HTMLSAFE,消除通常的任何JavaScript或SQL查询注入。 我希望我已经忽略了CF9随附的某种功能。 有人可以指出我正确的方向吗? 解决方案 这是凯尔(Kyle)建议的补充,不是替代答案,但是评论面板中的链
..
我试图从长数据集和大数据集中仅清除一列.数据有18列,超过100k的csv文件超过10k行,我只想清理其中的一列. 从长列表中仅输入几个字段 userLocation, userTimezone, Coordinates, India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.52
..
我在Excel中有一个字段(列),格式为“姓氏,名字中间字母",姓氏和名字后面的逗号之间有一个空格,中间名首字母和名字之间有第二个空格(否名字后面的逗号).有没有办法识别哪些单元格在右侧具有中间的首字母,然后消除所有单元格的中间的首字母,以使输出看起来像"LastName,FirstName"? 谢谢! 解决方案 您想要做的是能够将字段解析为多个字段,然后使用简单的excel公式重新
..
数据集 HAVE 是来自 Recess 字符的电话数据的小巧边缘列表: 学生朋友nCalls TJ Spinelli 3 TJ Gretchen 7 TJ Gus 6 TJ Vince 8 TJ King Bob 1 TJ Mikey 2 Spinelli TJ 3 Spinelli Vince 2 Randall Finster女士17
..
熊猫开发的新手.如何用一个以前见过的列中包含的值向前填充DataFrame? 独立示例: import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [1, np.nan, 2, np.nan] C = [5, np.nan, 2, np.nan] ti
..
根据应用程序的要求,我需要以逗号分隔的格式显示分组依据的所有数据,以便管理员可以做出决定.我是Python的新手,不确定如何做. 可复制的数据样本 import pandas as pd compnaies = ['Microsoft', 'Google', 'Amazon', 'Microsoft', 'Facebook', 'Google'] products = ['OS',
..
我有一个数据框,其中包含名为id,country_name,location和total_deaths的列.在执行数据清理过程时,我在附加了'\r'的行中遇到了一个值.完成清理过程后,将结果数据帧存储在destination.csv文件中.由于上面的特定行已附加\r,因此始终会创建一个新行. id 29 location
..
如何找到将Year_Q转换为日期时间的智能解决方案?我尝试使用 pd.to_datetime(working_visa_nationality['Year_Q']) 但是出现错误,表明无法识别.所以我尝试了一种愚蠢的方式: working_visa_nationality['Year'] = working_visa_nationality.Year_Q.str.slice(0,4
..
我在Pandas的数据框中有一个列,缺少大约78%的值. 剩余的22%值按以下比率分为三个标签-SC,ST,GEN. SC-16% ST-8% GEN-76% 我需要用上面的三个值替换缺失的值,以便所有元素的比例与上面相同.只要比例保持在上面,分配就可以是随机的. 我如何做到这一点? 解决方案 从此DataFrame开始(仅用于创建类似于您的数据): impo
..
我有一个数据框: Name Section 1 James P3 2 Sam 2.5C 3 Billy T35 4 Sarah A85 5 Felix 5I 如何将数字值拆分为称为Section_Number的单独列,以及如何将字母值拆分为Section_Letter. 期望的结果 Name Section S
..
我有一个像这样的数据框: data = np.array([["userA","event2, event3"], ['userB',"event3, event4"], ['userC',"event2"]]) data = pd.DataFrame(data) 0 1 0 userA "event
..
pandas factorize函数将系列中的每个唯一值分配给基于0的顺序索引,并计算每个系列条目所属的索引. 我想在多列上完成pandas.factorize的等效功能: import pandas as pd df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1]}) pd.factorize(df)[0
..
列出了加载到熊猫数据框df2中的人员的属性的列表.为了进行清理,我想用np.nan替换零值(0或'0'). df2.dtypes ID object Name object Weight float64 Height float64 BootSize
..
我有一个数据框df,其中有一些类型为float64的列,而其他的则是对象.由于混合的性质,我不能使用 df.fillna('unknown') #getting error "ValueError: could not convert string to float:" 因为错误发生在类型为float64的列上(这是一个令人误解的错误消息!) 所以我希望我可以做类似的事情 f
..
在Python中,我有一个类似于以下内容的pandas DataFrame: Item | shop1 | shop2 | shop3 | Category ------------------------------------ Shoes| 45 | 50 | 53 | Clothes TV | 200 | 300 | 250 | Technology
..
图片就是我的数据框的样子.我有用户名,电影名和时间列.我只想提取某些电影第一天的行.例如,如果电影a在时间列中的第一个日期是2018-06-27,我希望该日期中的所有行,并且如果电影b在时间列中的第一个日期是2018-06-12,则我只希望那些行.我要如何处理大熊猫? 解决方案 我假定 time 列为 datetime 类型.如果没有,将其转换 列调用 pd.to_datetime .
..
我正在处理像这样的pandas DataFrames: id x 0 1 10 1 1 20 2 2 100 3 2 200 4 1 NaN 5 2 NaN 6 1 300 7 1 NaN 我想用具有相同'id'值的行中的每个NAN'x'替换为先前的非NAN'x': id x 0 1 10 1
..
我有一个点数组 { "Sheet1": [ { "CoM ID": "1040614", "Genus": "Washingtonia", "Year Planted": "1998", "Latitude": "-37.81387927", "Longitude": "144.9817733" }, {
..
当我不使用管道时,我可以使用这个命令来更改原来的daframe df%#删除顶部3行 df% 片(-c(1:3))%>% 选择(-c(Col1,Col50,
..