data-cleaning - IT屋-程序员软件开发技术分享社区

合并名称相似的CSV

摘要给定一个包含以模式Prefix-Year.csv命名的CSV文件的目录，创建一组新的名为Prefix-Aggregate.csv的CSV文件，其中每个聚合文件是具有相同前缀的所有CSV文件的组合。说明我有一个包含5,500个CSV文件的目录，命名方式如下：Prefix-Year.csv。示例： 18394-1999.csv . . . //con ..

发布时间：2022-08-18 16:17:06 python regex csv pandas data-cleaning Python

相似性分数用于过滤 pandas 中的数据帧列

我有一个 pandas 数据帧df，其列名如下 columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select ..

发布时间：2022-08-18 16:05:31 pandas dataframe nlp data-cleaning rex Python

使用R清除数据时使用正则表达式逗号

在我之前的一个问题(Creating adjacency matrix with dirty dataset)中，我能够清除几乎所有的数据。谢谢你们，你们这些出色的程序员。然而，当我试图了解游乐场如何工作时，我继续遇到逗号问题。数据集最初看起来像- Species Association Year ..

发布时间：2022-08-18 15:58:45 r data-cleaning 其他开发

在R(StringR)中使用正则表达式提取用于购物篮分析的产品项目时出错

Order_id PRODUCT_NAME 1 普通-高附着力有机硅底漆-30ml，普通-天然保湿因子+HA 30ml 2 Sandal，Brown-44 3 醋酸盐正方形黑色过渡太阳镜，卡地亚-8221-边少绿色双色太阳镜，雷朋-飞行员-棕色双色-3026-钻石硬质坚硬镜片，Burberry-2A357-哈瓦那-飞行员-太阳镜，醋酸盐正方形-黑色-过渡性太阳镜，卡地亚-8221-边少绿色双 ..

发布时间：2022-08-18 15:51:10 r dplyr data-cleaning stringr data-wrangling 其他开发

从下载的html文件中提取的Dataframe包含以空格分隔的浮点；如何清理？

这是this question的续篇，在this question中，我从CDS下载了一个文件，并使用rvest使用以下脚本解压： library(rvest) download.file("https://cdsarc.cds.unistra.fr/viz-bin/nph-Cat/html?J/MNRAS/495/1706/subaru.dat.gz", "subaru.dat.gz") ..

发布时间：2022-08-18 15:39:18 python r dataframe data-cleaning rvest Python

如何在下载的数据文件中保留丢失的单元格？

我有一个从https://cdsarc.cds.unistra.fr/viz-bin/cat/J/MNRAS/495/1706#/browse获得的糟糕的数据集，我正在尝试使用Python和R清理它。该HTML文件看起来像this：但当我下载文件时，它包含额外的空格作为填充，以及丢失数据的位置。这意味着我不能使用Python的.replace方法将空格更改为NAs。下载原始文件后，我使用以下脚本 ..

发布时间：2022-08-18 15:36:06 python r data-cleaning Python

颜色必须是aRGB十六进制值？

所以我之前为污染数据集运行了一些代码，代码运行得很好。现在，我得到了这个错误：颜色必须为aRGB十六进制值我仅有的一行代码如下： pollution_jawn = pd.read_excel('ObservationData_irkfioc copy.xlsx') 我不知道问题出在哪里，我甚至尝试从我的jupyterHub目录中删除此文件并上载，但即使这样也不起作用。推 ..

发布时间：2022-08-18 15:24:26 python pandas data-cleaning argb Python

如何从Python中的字符串中提取表情包和标志？

import emoji def emoji_lis(string): _entities = [] for pos,c in enumerate(string): if c in emoji.UNICODE_EMOJI: print("Matched!!", c ,c.encode('ascii',"backslashreplace")) _entiti ..

发布时间：2022-08-18 15:14:36 python string emoji data-cleaning Python

将完整的年龄从字符转换为R中的数字

我在R中有一个以人的完整年龄为字符串(例如，10年8个月23天)的数据集，我需要将其转换为有意义的数字变量。我正在考虑将其转换为人的年龄(这很难，因为月份有不同的天数)。因此，最佳解决方案可能是创建一个双精度变量，将年龄显示为10.6或10.8，这是一个数字变量，其中包含10年8个月5天大于10年7个月12天的信息。以下是我拥有的当前变量的一个示例 library(tibble) ..

发布时间：2022-08-18 15:07:54 r data-cleaning lubridate stringr data-wrangling 其他开发

从数据帧中删除特殊字符和字母数字的简单方法

我有一个包含x行和y列数的大型数据集。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式，因此我发现很难从数据帧中删除它。 nonhashtag ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates'] ['Just', 'posted', 'photo', 'Rasim', 'Villa'] ['Dhab ..

发布时间：2022-08-18 14:58:30 python regex pandas dataframe data-cleaning Python

R：从R中的大型数据集中删除基于列中的值的行

我在R中处理104500个观测值的数据集。我想删除基于列名“STATE”的行，该列名为“TX”和“NY”。我正在使用以下代码 customers ..

发布时间：2022-08-18 14:52:39 r data-cleaning 其他开发

合并不同长度的长格式数据框并转换为宽格式

由于time变量(不平衡面板数据)：，我想合并不同长度的长格式数据帧： set.seed(63) #function to create a data frame that includes id, time and x func1 ..

发布时间：2022-05-07 16:41:45 r time-series data-manipulation data-cleaning panel-data 其他开发

将基于另一列的列中的值替换为R

我正在尝试根据不同列中的数据替换列的值，但这不起作用。以下是一些示例数据。 df ..

发布时间：2022-05-07 15:07:53 r data-manipulation data-cleaning 其他开发

字符串上的分隔行保留原始内容(&A)

我正在进行一个项目，其中我想要特定字符串的所有排列。我使用tidyr::separate_rows对特定字符串进行拆分和复制，但我希望保留原始行。 require(dplyr) require(tidyr) temp ..

发布时间：2022-04-17 23:21:17 r regex tidyr data-cleaning 其他开发

OpenRefining：如何使用第一个单元格中的描述值填充空白单元格？

如何使用第一个单元格中的描述值填充空单元格？ A列 B列 Col C.&Quot；N；选项1 A、B、C、D 选项1属性选项1 选项1属性选项1 选项1属性选项1 选项1属性选项2 C，D，F 选项2属性选项2 选项2属性选项2 选项2属性选项3 D，J，Z 选项3属性选项3 选项3属性选项3 选项3属性变为 A列 B列 Col C.&Q ..

发布时间：2022-03-01 18:32:45 excel bigdata data-cleaning openrefine 其他开发

如何替换点(.)在句子中，除非它出现在使用正则表达式的缩写中

我希望将句子中的每个点替换为空格，但与缩写一起使用时除外。当它与缩写一起使用时，我希望将其替换为''NULL。缩写表示至少包含两个大写字母的圆点。我的regex正在工作，但它们捕获U.S. r1 = r'((?:[A-Z].){2,})s*' r2 = r'(?:[A-Z].){2,}' 'U.S.A is abbr x.y is not. But I.I.T. is ..

发布时间：2022-02-22 16:18:22 python regex nlp data-cleaning re Python

按组求和变量并附加结果

Dataset HAVE是Recess字符的电话数据的tibble edgelist: 学生朋友 nCallsTJ斯皮内利 3TJ格雷琴 7TJ格斯6TJ文斯8TJ 国王鲍勃 1TJ 米奇 2斯皮内利 TJ 3斯皮内利文斯 2兰德尔芬斯特女士 17 数据集 NEED 包括来自 HAVE 的所有原始列，但包括一个新变量 nCallsPerStudent，这正是它听起来的样子: 学生朋友 nCa ..

发布时间：2022-01-22 11:30:19 r append data-cleaning 其他开发

通过 data.table (R) 循环 grepl()

我有一个存储为 data.table DT 的数据集，如下所示: 打印(DT)类别行业1:行政管理员2:执业护士卡车3:货运卡车4:管理管理员5:仓储护士6:仓储管理员7:货运卡车8:执业护士护士9:执业护士卡车我想将表格缩减为只有行业与类别匹配的行.我的一般方法是使用 grepl() 正则表达式匹配字符串 '^{{INDUSTRY}}[az ]+$' 和 DT$ 的每一行类别，使用 inf ..

发布时间：2022-01-13 19:28:37 regex r data.table data-cleaning 其他开发

将 2010 Q1 转换为日期时间为 2010-3-31

如何找到将 Year_Q 转换为日期时间的智能解决方案?我尝试使用 pd.to_datetime(working_visa_nationality['Year_Q']) 但得到错误说这无法识别.所以我尝试了一个愚蠢的方法: working_visa_nationality['Year'] = working_visa_nationality.Year_Q.str.slice(0,4)work ..

发布时间：2022-01-11 09:59:42 python pandas time-series data-cleaning Python

Coldfusion 9中的清洁字符串/输入

我最近一直在使用 Coldfusion 9(主要是 PHP 的背景)，我正在摸索如何“清理/清理"用户提交的输入/字符串. 我想让它成为 HTMLSAFE，消除任何 javascript 或 SQL 查询注入，就像往常一样.我希望我忽略了 CF9 已经附带的某种功能. 有人能指出正确的方向吗? 解决方案这是对 Kyle 建议的补充而不是替代答案，但评论面板对于链接来说有点垃圾 ..

发布时间：2022-01-09 15:02:16 coldfusion coldfusion-9 data-cleaning 其他开发

data-cleaning相关内容