data-cleaning 第5页 - IT屋-程序员软件开发技术分享社区

如何使用R来检查数据一致性（确保大小写和值之间没有矛盾）？

比方说我有人物电影评分萨利·泰坦尼克号4 比尔·泰坦尼克号4 Rob Titanic 4 Sue Cars 8 Alex Cars ** 9 ** Bob Cars 8 如您所见，Alex有矛盾之处。所有相同的电影应该具有相同的排名，但是Alex出现了数据错误条目。如何使用R解决这个问题？我已经考虑了好一阵子，但无法弄清楚。我是否只需要在excel中手 ..

发布时间：2020-10-16 20:10:53 r data-cleaning 其他开发

R：清理宽大不整的数据框

我有一个看起来像这样的数据框： d ..

发布时间：2020-10-16 20:10:50 r tidyr data-cleaning summarize 其他开发

如何将“ Python Pandas”列中的“ 2 + 3”之类的值转换为其汇总值

我在DataFrame中有一列名为致命性的列，其值很少像下面这样： data [''fatalities'] = [1、4、10、1+ 8、5、2 + 9，，16、4 + 5] 我想要类似'的值1 + 8'，'2 + 9'等转换为汇总值，即 data [''fatalities'] = [1，4 、、、 10、9、5、11、16、9] 我不确定如何编写代码来为Python中pand ..

发布时间：2020-10-16 20:10:45 python pandas data-cleaning Python

基于定义的连续观察数，在R条件下的面板数据中放置变量

我对R很陌生，我的问题如下：我有一组按时间序列组织的面板数据，如下所示（仅显示了一部分）： Week_Starting团队A团队B团队C团队D 2010-01-02 1 2 3 4 2010-01-09 2 40 1 5 2010-01-16 15 4 11 2010-01-23 25 7 18 2010-01-30 38 9 29 ..

发布时间：2020-10-16 20:10:44 r data-cleaning panel-data 其他开发

使用pandas将对象类型列转换为数字类型

我正在尝试使用熊猫清理数据。当我执行df.datatypes时，它表明列是对象类型。我希望将它们转换为数字类型。我尝试了各种方式，例如； data [['a'，'b']] =数据[['a'，'b']]。apply（pd.to_numeric，错误='ignore'）然后， data ['c'] = data ['c']。infer_objects（） ..

发布时间：2020-10-16 20:10:41 python pandas data-cleaning Python

去除所有“ H”。在字符串中，除了包含“ CH”的字符串

在以下示例中，我尝试删除字符串中的所有“ H”，但包括“ CH”的除外：字符串 ..

发布时间：2020-10-16 20:10:36 r regex text-mining data-cleaning 其他开发

R-根据多个条件匹配2个数据帧中的值（当查找ID的顺序是随机的时）

嗨，我有两个数据帧： df1 = data.frame（PersonId1 = c（1,2,3， 4,5,6,7,8,9,10,1），PersonId2 = c（11,12,13,14,15,16,17,18,19,20,11）， Played_together = c（1,0,0,1,1,0,0,0,1,0,1）， Event = c（1,1,1,1,2,2,2,2,2 ，2,2）， ..

发布时间：2020-10-16 20:10:34 r data-manipulation data-cleaning 其他开发

如何删除熊猫数据框中的索引名称？

在数据框中，我在索引列的名称上写了一个“ 2”。当我检查列名称时，它没有显示在此处，但作为 df.columns给出了它的输出。我不知道如何从数据集中删除那个“ 2”。我尝试删除索引名称，但并没有解决我的问题。 df.columns ==>输出 Index（['name'，'census 1981'，'census 1998'，'estimate 2000'， 'calcu ..

发布时间：2020-10-16 20:10:32 python pandas dataframe indexing data-cleaning Python

Python-熊猫删除Excel中的特定行/列

我有以下excel文件，我想清理特定的行/列，以便我可以进一步处理该文件。我已经尝试过了，但是我没有设法删除任何空白行，我只设法从那些包含数据的行中删除。在这里，我试图只保存第三行及以后的数据。 xl = pd.ExcelFile（“ MRD。 xlsx“） df = xl.parse（” Sheet3“） df2 = df.iloc [3：] writer4 = pd ..

发布时间：2020-10-16 20:10:29 python pandas row data-cleaning Python

使用Scrapy清除清除的数据

我最近开始使用Scrapy，并尝试清除一些我已抓取并要导出为CSV的数据，即以下三个示例：示例1 –删除某些文本示例2 –删除/替换不需要的字符示例3 –分隔逗号分隔的文本示例1数据如下：我想要的文本，我不需要的文本使用以下代码： 'Scraped 1'：response.xpath（'// div / div / div / div / h1 / s ..

发布时间：2020-10-16 20:10:25 python web-scraping scrapy data-cleaning Python

使用spacy删除停用词

我正在清理数据框中的一列 Sumcription，并试图做3件事：令牌化去私密删除停用词 import spacy nlp = spacy.load（'en_core_web_sm'，parser = False，entity = False） df ['Tokens'] = df.Sumcription .apply（lambda x：nlp（x）） spac ..

发布时间：2020-10-16 20:10:23 python nlp spacy python-3.7 data-cleaning Python

R-简单记录链接-下一步？

我正在尝试与库（“ RecordLinkage”）进行一些简单的直接链接。所以我只有一个向量 tv3 = c（“ TOURDEFRANCE”，“ TOURDEFRANCE”，“ TOURDE FRANCE”， “ TOURDE FRANZ”，“ GET FRESH”）我需要的功能是 library（'RecordLinkage'）的 compare.dedup ..

发布时间：2020-10-16 20:10:19 r record linkage data-cleaning 其他开发

如何清除和重新编码R调查数据中的“所有适用检查”响应？

我有一些类似以下问题的调查数据： HS18为什么在南非很难获得医疗服务？（选择所有适用项） 1太贵了 2没有去医院/诊所的交通 3医院/诊所太远 4医院/诊所工作人员不讲我的语言 5医院/诊所工作人员不喜欢外国人 6等待时间过长 7无法接受工作时间 8这些都不是。我在使用医疗服务时没有问题其中输入了多个答案并以逗号表示，并记录为不同级别，即： ..

发布时间：2020-10-16 20:10:15 r survey data-cleaning 其他开发

如何清除R中的Twitter数据？

我使用twitteR软件包从twitter提取了tweet，并将其保存到文本文件中。我对语料库进行了以下操作 xx ..

发布时间：2020-10-16 20:09:02 r twitter text-mining data-cleaning 其他开发

避免与dplyr :: case_when发生类型冲突

我试图在 dplyr :: mutate 中使用 dplyr :: case_when 在其中创建新变量设置一些值以丢失并同时重新编码其他值。但是，如果我尝试将值设置为 NA ，我收到一条错误消息，说我们不能创建变量 new ，因为 NA s是合乎逻辑的： mutate_impl（.data，点）中的错误：评估错误：必须为double类型，而不是逻辑。是否可以使用以下 ..

发布时间：2020-10-16 20:09:00 r dplyr data-cleaning 其他开发

如何将部分Excel数据转换为列以获得所需的输出？

例如-说我有以下格式的数据- 当前格式为了方便使用，我需要将数据格式化为以下格式- 必需格式当然，数据包含更多的记录-我正在寻找一种简单的方式来对大型数据集以这种方式转置数据。任何帮助将不胜感激：）解决方案使用PowerQuery非常容易。它是为Excel 2016内置的，并且是2010年至2013年之间免费提供的版本插件。您需要将数据设置为 ..

发布时间：2020-10-16 20:08:37 excel rows transpose data-cleaning 其他开发

使用Python从文本中删除非英语单词

我正在使用python进行数据清理练习，正在清理的文本包含我要删除的意大利语单词。我一直在网上搜索是否可以使用nltk之类的工具包在Python上执行此操作。例如，给出一些文字： “ Io andiamo to the和我的amico海滩。” 我想留下来： “和我的” 到海滩有人知道吗如何做到这一点？任何帮助将不胜感激。解决方 ..

发布时间：2020-10-16 20:08:34 python data-science data-cleaning Python

R：如何对按因子分组的列求和？

如果我有这样的表： user，v1，v2，v3 a，1,0 ，0 a，1,0,1 b，1,0,0 b，2,0,3 c，1,1,1 如何将其变成这个？ user，v1，v2，v3 a，2,0,1 b，3,0,3 c，1,1,1 解决方案您可以为此使用 dplyr ： library（dplyr） df = data.f ..

发布时间：2020-10-16 20:07:25 r data-cleaning 其他开发

如何将字符串拆分为不同的变量？

我正在尝试分析 Airbnb 和便利设施列中的商品的大型数据集列出列出的设施。例如， {“无线互联网”，“空调”，厨房，暖气，“消防灭火器”，必需品，洗发水，壁炉} 和 {电视，“无线上网”，“空调”，厨房， “位于大楼中的电梯”，暖气，“适合举办活动”，“烟雾探测器”，“一氧化碳探测器”，“急救箱”，必需品，洗发水，“锁在卧室门“，Hanger ..

发布时间：2020-10-15 21:33:09 r data-analysis data-cleaning 其他开发

如何将当前行中的负值传输到数据帧中的前一行？

我想通过将负值添加到每个组中的前一行，将当前行的负值转移到前一行。以下是我拥有的示例原始数据： raw_data ..

发布时间：2020-10-15 20:07:35 r dataframe dplyr data.table data-cleaning 其他开发

data-cleaning相关内容