data-cleaning 第6页 - IT屋-程序员软件开发技术分享社区

R-确定哪些列包含货币数据$

我有一个非常大的数据集，其中有些列的格式设置为货币，某些数字和某些字符。读取数据时，所有货币列均被识别为因素，我需要将其转换为数字。数据集太宽，无法手动识别列。我正在尝试找到一种编程方式，以确定一列是否包含货币数据（例如，以“ $”开头），然后传递要清除的那列列表。姓名 ..

发布时间：2020-10-13 04:35:49 r currency data-cleaning 其他开发

清洁线/ Coldfusion 9中的输入

我最近一直在使用 Coldfusion 9 （主要是PHP的背景知识），我正在摸索着试图弄清楚如何“清理/清理”用户提交的输入/字符串。 / p> 我想使它成为HTMLSAFE，消除通常的任何JavaScript或SQL查询注入。我希望我已经忽略了CF9随附的某种功能。有人可以指出我正确的方向吗？解决方案这是凯尔（Kyle）建议的补充，不是替代答案，但是评论面板中的链 ..

发布时间：2020-10-05 04:41:46 coldfusion coldfusion-9 data-cleaning 其他开发

从长数据集和大数据集中清除一列

我试图从长数据集和大数据集中仅清除一列.数据有18列，超过100k的csv文件超过10k行，我只想清理其中的一列. 从长列表中仅输入几个字段 userLocation, userTimezone, Coordinates, India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.52 ..

发布时间：2020-09-20 20:00:13 python pandas data-cleaning bigdata Python

从Excel字段中解析名字和姓氏

我在Excel中有一个字段(列)，格式为“姓氏，名字中间字母"，姓氏和名字后面的逗号之间有一个空格，中间名首字母和名字之间有第二个空格(否名字后面的逗号).有没有办法识别哪些单元格在右侧具有中间的首字母，然后消除所有单元格的中间的首字母，以使输出看起来像"LastName，FirstName"? 谢谢！解决方案您想要做的是能够将字段解析为多个字段，然后使用简单的excel公式重新 ..

发布时间：2020-07-23 00:54:32 excel format excel-formula data-cleaning 其他开发

按组求和并附加结果

数据集 HAVE 是来自 Recess 字符的电话数据的小巧边缘列表：学生朋友nCalls TJ Spinelli 3 TJ Gretchen 7 TJ Gus 6 TJ Vince 8 TJ King Bob 1 TJ Mikey 2 Spinelli TJ 3 Spinelli Vince 2 Randall Finster女士17 ..

发布时间：2020-06-06 19:24:34 r append data-cleaning 其他开发

Python Pandas-使用上一列的值向前填充整个行

熊猫开发的新手.如何用一个以前见过的列中包含的值向前填充DataFrame? 独立示例: import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [1, np.nan, 2, np.nan] C = [5, np.nan, 2, np.nan] ti ..

发布时间：2020-05-24 02:40:05 python pandas dataframe data-science data-cleaning Python

熊猫|分组依据，该组的所有值以逗号分隔

根据应用程序的要求，我需要以逗号分隔的格式显示分组依据的所有数据，以便管理员可以做出决定.我是Python的新手，不确定如何做. 可复制的数据样本 import pandas as pd compnaies = ['Microsoft', 'Google', 'Amazon', 'Microsoft', 'Facebook', 'Google'] products = ['OS', ..

发布时间：2020-05-24 02:11:24 python pandas data-cleaning Python

如何删除数据框中的回车

我有一个数据框，其中包含名为id，country_name，location和total_deaths的列.在执行数据清理过程时，我在附加了'\r'的行中遇到了一个值.完成清理过程后，将结果数据帧存储在destination.csv文件中.由于上面的特定行已附加\r，因此始终会创建一个新行. id 29 location ..

发布时间：2020-05-24 02:00:55 python pandas replace carriage-return data-cleaning Python

将2010年第一季度的日期时间设为2010-3-31

如何找到将Year_Q转换为日期时间的智能解决方案?我尝试使用 pd.to_datetime(working_visa_nationality['Year_Q']) 但是出现错误，表明无法识别.所以我尝试了一种愚蠢的方式: working_visa_nationality['Year'] = working_visa_nationality.Year_Q.str.slice(0,4 ..

发布时间：2020-05-24 01:17:59 python pandas time-series data-cleaning Python

通过熊猫中其他值的比率来填充缺失值

我在Pandas的数据框中有一个列，缺少大约78％的值. 剩余的22％值按以下比率分为三个标签-SC，ST，GEN. SC-16％ ST-8％ GEN-76％我需要用上面的三个值替换缺失的值，以便所有元素的比例与上面相同.只要比例保持在上面，分配就可以是随机的. 我如何做到这一点? 解决方案从此DataFrame开始(仅用于创建类似于您的数据): impo ..

发布时间：2020-05-24 01:10:48 pandas data-cleaning Python

如何从Pandas数据框中的列中将列拆分为字母值和数字值?

我有一个数据框: Name Section 1 James P3 2 Sam 2.5C 3 Billy T35 4 Sarah A85 5 Felix 5I 如何将数字值拆分为称为Section_Number的单独列，以及如何将字母值拆分为Section_Letter. 期望的结果 Name Section S ..

发布时间：2020-05-24 00:48:48 python string python-3.x pandas data-cleaning Python

python pandas:将逗号分隔的列拆分为新列-每个值一个

我有一个像这样的数据框: data = np.array([["userA","event2, event3"], ['userB',"event3, event4"], ['userC',"event2"]]) data = pd.DataFrame(data) 0 1 0 userA "event ..

发布时间：2020-05-24 00:31:35 python pandas data-cleaning Python

熊猫中的多列分解

pandas factorize函数将系列中的每个唯一值分配给基于0的顺序索引，并计算每个系列条目所属的索引. 我想在多列上完成pandas.factorize的等效功能: import pandas as pd df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1]}) pd.factorize(df)[0 ..

发布时间：2020-05-24 00:03:17 python pandas enumeration data-cleaning Python

Python Pandas将零列替换为Nan

列出了加载到熊猫数据框df2中的人员的属性的列表.为了进行清理，我想用np.nan替换零值(0或'0'). df2.dtypes ID object Name object Weight float64 Height float64 BootSize ..

发布时间：2020-05-24 00:02:15 python pandas dataframe data-cleaning Python

在类型为float或特定类型的Pandas中查找数据框的所有列?

我有一个数据框df，其中有一些类型为float64的列，而其他的则是对象.由于混合的性质，我不能使用 df.fillna('unknown') #getting error "ValueError: could not convert string to float:" 因为错误发生在类型为float64的列上(这是一个令人误解的错误消息！) 所以我希望我可以做类似的事情 f ..

发布时间：2020-05-23 23:54:50 python pandas dataframe data-cleaning Python

Python Pandas Groupby聚合在多个列上，然后进行透视

在Python中，我有一个类似于以下内容的pandas DataFrame: Item | shop1 | shop2 | shop3 | Category ------------------------------------ Shoes| 45 | 50 | 53 | Clothes TV | 200 | 300 | 250 | Technology ..

发布时间：2020-05-23 22:40:22 python pandas dataframe pivot data-cleaning Python

如何在特定条件下提取大熊猫中的某些? (情感分析)

图片就是我的数据框的样子.我有用户名，电影名和时间列.我只想提取某些电影第一天的行.例如，如果电影a在时间列中的第一个日期是2018-06-27，我希望该日期中的所有行，并且如果电影b在时间列中的第一个日期是2018-06-12，则我只希望那些行.我要如何处理大熊猫? 解决方案我假定 time 列为 datetime 类型.如果没有，将其转换列调用 pd.to_datetime . ..

发布时间：2020-05-18 23:50:13 python pandas numpy data-manipulation data-cleaning Python

使用键将以前的非缺失值填充到丢失的熊猫数据中

我正在处理像这样的pandas DataFrames: id x 0 1 10 1 1 20 2 2 100 3 2 200 4 1 NaN 5 2 NaN 6 1 300 7 1 NaN 我想用具有相同'id'值的行中的每个NAN'x'替换为先前的非NAN'x': id x 0 1 10 1 ..

发布时间：2020-05-09 23:13:28 python pandas nan missing-data data-cleaning Python

是否存在R函数，用于检查指定的GeoJSON对象(多边形或多多边形)是否包含指定点?

我有一个点数组 { "Sheet1": [ { "CoM ID": "1040614", "Genus": "Washingtonia", "Year Planted": "1998", "Latitude": "-37.81387927", "Longitude": "144.9817733" }, { ..

发布时间：2019-11-24 20:54:06 r json geojson data-cleaning 其他开发

dplyr管道 - 如何更改原始数据框

当我不使用管道时，我可以使用这个命令来更改原来的daframe df％＃删除顶部3行 df％片（-c（1：3））％>％选择（-c（Col1，Col50， ..

发布时间：2017-07-13 20:39:26 r dplyr data-cleaning 其他开发语言

data-cleaning相关内容