data-cleaning相关内容
比方说我有 人物电影评分 萨利·泰坦尼克号4 比尔·泰坦尼克号4 Rob Titanic 4 Sue Cars 8 Alex Cars ** 9 ** Bob Cars 8 如您所见,Alex有矛盾之处。所有相同的电影应该具有相同的排名,但是Alex出现了数据错误条目。如何使用R解决这个问题?我已经考虑了好一阵子,但无法弄清楚。我是否只需要在excel中手
..
我有一个看起来像这样的数据框: d
..
我在DataFrame中有一列名为致命性的列,其值很少像下面这样: data [''fatalities'] = [1、4、10、1+ 8、5、2 + 9,,16、4 + 5] 我想要类似'的值1 + 8','2 + 9'等转换为汇总值,即 data [''fatalities'] = [1,4 、、、 10、9、5、11、16、9] 我不确定如何编写代码来为Python中pand
..
我对R很陌生,我的问题如下: 我有一组按时间序列组织的面板数据,如下所示(仅显示了一部分): Week_Starting团队A团队B团队C团队D 2010-01-02 1 2 3 4 2010-01-09 2 40 1 5 2010-01-16 15 4 11 2010-01-23 25 7 18 2010-01-30 38 9 29
..
我正在尝试使用熊猫清理数据。当我执行df.datatypes时,它表明列是对象类型。我希望将它们转换为数字类型。 我尝试了各种方式,例如; data [['a','b']] =数据[['a','b']]。apply(pd.to_numeric,错误='ignore') 然后, data ['c'] = data ['c']。infer_objects()
..
在以下示例中,我尝试删除字符串中的所有“ H”,但包括“ CH”的除外: 字符串
..
嗨,我有两个数据帧: df1 = data.frame(PersonId1 = c(1,2,3, 4,5,6,7,8,9,10,1),PersonId2 = c(11,12,13,14,15,16,17,18,19,20,11), Played_together = c(1,0,0,1,1,0,0,0,1,0,1), Event = c(1,1,1,1,2,2,2,2,2 ,2,2),
..
在数据框中,我在索引列的名称上写了一个“ 2”。 当我检查列名称时,它没有显示在此处,但作为 df.columns给出了它的输出。我不知道如何从数据集中删除那个“ 2”。 我尝试删除索引名称,但并没有解决我的问题。 df.columns ==>输出 Index(['name','census 1981','census 1998','estimate 2000', 'calcu
..
我有以下excel文件,我想清理特定的行/列,以便我可以进一步处理该文件。 我已经尝试过了,但是我没有设法删除任何空白行,我只设法从那些包含数据的行中删除。在这里,我试图只保存第三行及以后的数据。 xl = pd.ExcelFile(“ MRD。 xlsx“) df = xl.parse(” Sheet3“) df2 = df.iloc [3:] writer4 = pd
..
我最近开始使用Scrapy,并尝试清除一些我已抓取并要导出为CSV的数据,即以下三个示例: 示例1 –删除某些文本 示例2 –删除/替换不需要的字符 示例3 –分隔逗号分隔的文本 示例1数据如下: 我想要的文本,我不需要的文本 使用以下代码: 'Scraped 1':response.xpath('// div / div / div / div / h1 / s
..
我正在清理数据框中的一列 Sumcription,并试图做3件事: 令牌化 去私密 删除停用词 import spacy nlp = spacy.load('en_core_web_sm',parser = False,entity = False) df ['Tokens'] = df.Sumcription .apply(lambda x:nlp(x)) spac
..
我正在尝试与库(“ RecordLinkage”)进行一些简单的直接链接。 所以我只有一个向量 tv3 = c(“ TOURDEFRANCE”,“ TOURDEFRANCE”,“ TOURDE FRANCE”, “ TOURDE FRANZ”,“ GET FRESH”) 我需要的功能是 library('RecordLinkage')的 compare.dedup
..
我有一些类似以下问题的调查数据: HS18为什么在南非很难获得医疗服务? (选择所有适用项) 1太贵了 2没有去医院/诊所的交通 3医院/诊所太远 4医院/诊所工作人员不讲我的语言 5医院/诊所工作人员不喜欢外国人 6等待时间过长 7无法接受工作时间 8这些都不是。我在使用医疗服务时没有问题 其中输入了多个答案并以逗号表示,并记录为不同级别,即:
..
我使用twitteR软件包从twitter提取了tweet,并将其保存到文本文件中。 我对语料库进行了以下操作 xx
..
我试图在 dplyr :: mutate 中使用 dplyr :: case_when 在其中创建新变量设置一些值以丢失并同时重新编码其他值。 但是,如果我尝试将值设置为 NA ,我收到一条错误消息,说我们不能创建变量 new ,因为 NA s是合乎逻辑的: mutate_impl(.data,点)中的错误: 评估错误:必须为double类型,而不是逻辑。 是否可以使用以下
..
例如-说我有以下格式的数据- 当前格式 为了方便使用,我需要将数据格式化为以下格式- 必需格式 当然,数据包含更多的记录-我正在寻找一种简单的方式来对大型数据集以这种方式转置数据。 任何帮助将不胜感激:) 解决方案 使用PowerQuery非常容易。它是为Excel 2016内置的,并且是2010年至2013年之间免费提供的版本插件。 您需要将数据设置为
..
我正在使用python进行数据清理练习,正在清理的文本包含我要删除的意大利语单词。我一直在网上搜索是否可以使用nltk之类的工具包在Python上执行此操作。 例如,给出一些文字: “ Io andiamo to the和我的amico海滩。” 我想留下来: “和我的” 到海滩有人知道吗如何做到这一点? 任何帮助将不胜感激。 解决方
..
如果我有这样的表: user,v1,v2,v3 a,1,0 ,0 a,1,0,1 b,1,0,0 b,2,0,3 c,1,1,1 如何将其变成这个? user,v1,v2,v3 a,2,0,1 b,3,0,3 c,1,1,1 解决方案 您可以为此使用 dplyr : library(dplyr) df = data.f
..
我正在尝试分析 Airbnb 和便利设施列中的商品的大型数据集列出列出的设施。 例如, {“无线互联网”,“空调”,厨房,暖气,“消防 灭火器”,必需品,洗发水,壁炉} 和 {电视,“无线上网”,“空调”,厨房, “位于 大楼中的电梯”,暖气,“适合举办活动”,“烟雾探测器”,“一氧化碳 探测器”,“急救箱”,必需品,洗发水,“锁在卧室 门“,Hanger
..
我想通过将负值添加到每个组中的前一行,将当前行的负值转移到前一行。 以下是我拥有的示例原始数据: raw_data
..