data-cleaning相关内容

如何使用R来检查数据一致性(确保大小写和值之间没有矛盾)?

比方说我有 人物电影评分 萨利·泰坦尼克号4 比尔·泰坦尼克号4 Rob Titanic 4 Sue Cars 8 Alex Cars ** 9 ** Bob Cars 8 如您所见,Alex有矛盾之处。所有相同的电影应该具有相同的排名,但是Alex出现了数据错误条目。如何使用R解决这个问题?我已经考虑了好一阵子,但无法弄清楚。我是否只需要在excel中手 ..
发布时间:2020-10-16 20:10:53 其他开发

使用pandas将对象类型列转换为数字类型

我正在尝试使用熊猫清理数据。当我执行df.datatypes时,它表明列是对象类型。我希望将它们转换为数字类型。 我尝试了各种方式,例如; data [['a','b']] =数据[['a','b']]。apply(pd.to_numeric,错误='ignore') 然后, data ['c'] = data ['c']。infer_objects() ..
发布时间:2020-10-16 20:10:41 Python

如何删除熊猫数据框中的索引名称?

在数据框中,我在索引列的名称上写了一个“ 2”。 当我检查列名称时,它没有显示在此处,但作为 df.columns给出了它的输出。我不知道如何从数据集中删除那个“ 2”。 我尝试删除索引名称,但并没有解决我的问题。 df.columns ==>输出 Index(['name','census 1981','census 1998','estimate 2000', 'calcu ..
发布时间:2020-10-16 20:10:32 Python

Python-熊猫删除Excel中的特定行/列

我有以下excel文件,我想清理特定的行/列,以便我可以进一步处理该文件。 我已经尝试过了,但是我没有设法删除任何空白行,我只设法从那些包含数据的行中删除。在这里,我试图只保存第三行及以后的数据。 xl = pd.ExcelFile(“ MRD。 xlsx“) df = xl.parse(” Sheet3“) df2 = df.iloc [3:] writer4 = pd ..
发布时间:2020-10-16 20:10:29 Python

使用Scrapy清除清除的数据

我最近开始使用Scrapy,并尝试清除一些我已抓取并要导出为CSV的数据,即以下三个示例: 示例1 –删除某些文本 示例2 –删除/替换不需要的字符 示例3 –分隔逗号分隔的文本 示例1数据如下: 我想要的文本,我不需要的文本 使用以下代码: 'Scraped 1':response.xpath('// div / div / div / div / h1 / s ..
发布时间:2020-10-16 20:10:25 Python

使用spacy删除停用词

我正在清理数据框中的一列 Sumcription,并试图做3件事: 令牌化 去私密 删除停用词 import spacy nlp = spacy.load('en_core_web_sm',parser = False,entity = False) df ['Tokens'] = df.Sumcription .apply(lambda x:nlp(x)) spac ..
发布时间:2020-10-16 20:10:23 Python

R-简单记录链接-下一步?

我正在尝试与库(“ RecordLinkage”)进行一些简单的直接链接。 所以我只有一个向量 tv3 = c(“ TOURDEFRANCE”,“ TOURDEFRANCE”,“ TOURDE FRANCE”, “ TOURDE FRANZ”,“ GET FRESH”) 我需要的功能是 library('RecordLinkage')的 compare.dedup ..
发布时间:2020-10-16 20:10:19 其他开发

如何清除和重新编码R调查数据中的“所有适用检查”响应?

我有一些类似以下问题的调查数据: HS18为什么在南非很难获得医疗服务? (选择所有适用项) 1太贵了 2没有去医院/诊所的交通 3医院/诊所太远 4医院/诊所工作人员不讲我的语言 5医院/诊所工作人员不喜欢外国人 6等待时间过长 7无法接受工作时间 8这些都不是。我在使用医疗服务时没有问题 其中输入了多个答案并以逗号表示,并记录为不同级别,即: ..
发布时间:2020-10-16 20:10:15 其他开发

避免与dplyr :: case_when发生类型冲突

我试图在 dplyr :: mutate 中使用 dplyr :: case_when 在其中创建新变量设置一些值以丢失并同时重新编码其他值。 但是,如果我尝试将值设置为 NA ,我收到一条错误消息,说我们不能创建变量 new ,因为 NA s是合乎逻辑的: mutate_impl(.data,点)中的错误: 评估错误:必须为double类型,而不是逻辑。 是否可以使用以下 ..
发布时间:2020-10-16 20:09:00 其他开发

如何将部分Excel数据转换为列以获得所需的输出?

例如-说我有以下格式的数据- 当前格式 为了方便使用,我需要将数据格式化为以下格式- 必需格式 当然,数据包含更多的记录-我正在寻找一种简单的方式来对大型数据集以这种方式转置数据。 任何帮助将不胜感激:) 解决方案 使用PowerQuery非常容易。它是为Excel 2016内置的,并且是2010年至2013年之间免费提供的版本插件。 您需要将数据设置为 ..
发布时间:2020-10-16 20:08:37 其他开发

使用Python从文本中删除非英语单词

我正在使用python进行数据清理练习,正在清理的文本包含我要删除的意大利语单词。我一直在网上搜索是否可以使用nltk之类的工具包在Python上执行此操作。 例如,给出一些文字: “ Io andiamo to the和我的amico海滩。” 我想留下来: “和我的” 到海滩有人知道吗如何做到这一点? 任何帮助将不胜感激。 解决方 ..
发布时间:2020-10-16 20:08:34 Python

R:如何对按因子分组的列求和?

如果我有这样的表: user,v1,v2,v3 a,1,0 ,0 a,1,0,1 b,1,0,0 b,2,0,3 c,1,1,1 如何将其变成这个? user,v1,v2,v3 a,2,0,1 b,3,0,3 c,1,1,1 解决方案 您可以为此使用 dplyr : library(dplyr) df = data.f ..
发布时间:2020-10-16 20:07:25 其他开发

如何将字符串拆分为不同的变量?

我正在尝试分析 Airbnb 和便利设施列中的商品的大型数据集列出列出的设施。 例如, {“无线互联网”,“空调”,厨房,暖气,“消防 灭火器”,必需品,洗发水,壁炉} 和 {电视,“无线上网”,“空调”,厨房, “位于 大楼中的电梯”,暖气,“适合举办活动”,“烟雾探测器”,“一氧化碳 探测器”,“急救箱”,必需品,洗发水,“锁在卧室 门“,Hanger ..
发布时间:2020-10-15 21:33:09 其他开发