data-cleaning相关内容

合并名称相似的CSV

摘要 给定一个包含以模式Prefix-Year.csv命名的CSV文件的目录,创建一组新的名为Prefix-Aggregate.csv的CSV文件,其中每个聚合文件是具有相同前缀的所有CSV文件的组合。 说明 我有一个包含5,500个CSV文件的目录,命名方式如下:Prefix-Year.csv。示例: 18394-1999.csv . . . //con ..
发布时间:2022-08-18 16:17:06 Python

使用R清除数据时使用正则表达式逗号

在我之前的一个问题(Creating adjacency matrix with dirty dataset)中,我能够清除几乎所有的数据。谢谢你们,你们这些出色的程序员。然而,当我试图了解游乐场如何工作时,我继续遇到逗号问题。 数据集最初看起来像- Species Association Year ..
发布时间:2022-08-18 15:58:45 其他开发

在R(StringR)中使用正则表达式提取用于购物篮分析的产品项目时出错

Order_id PRODUCT_NAME 1 普通-高附着力有机硅底漆-30ml,普通-天然保湿因子+HA 30ml 2 Sandal,Brown-44 3 醋酸盐正方形黑色过渡太阳镜,卡地亚-8221-边少绿色双色太阳镜,雷朋-飞行员-棕色双色-3026-钻石硬质坚硬镜片,Burberry-2A357-哈瓦那-飞行员-太阳镜,醋酸盐正方形-黑色-过渡性太阳镜,卡地亚-8221-边少绿色双 ..
发布时间:2022-08-18 15:51:10 其他开发

如何在下载的数据文件中保留丢失的单元格?

我有一个从https://cdsarc.cds.unistra.fr/viz-bin/cat/J/MNRAS/495/1706#/browse获得的糟糕的数据集,我正在尝试使用Python和R清理它。该HTML文件看起来像this: 但当我下载文件时,它包含额外的空格作为填充,以及丢失数据的位置。这意味着我不能使用Python的.replace方法将空格更改为NAs。下载原始文件后,我使用以下脚本 ..
发布时间:2022-08-18 15:36:06 Python

颜色必须是aRGB十六进制值?

所以我之前为污染数据集运行了一些代码,代码运行得很好。现在,我得到了这个错误: 颜色必须为aRGB十六进制值 我仅有的一行代码如下: pollution_jawn = pd.read_excel('ObservationData_irkfioc copy.xlsx') 我不知道问题出在哪里,我甚至尝试从我的jupyterHub目录中删除此文件并上载,但即使这样也不起作用。 推 ..
发布时间:2022-08-18 15:24:26 Python

将完整的年龄从字符转换为R中的数字

我在R中有一个以人的完整年龄为字符串(例如,10年8个月23天)的数据集,我需要将其转换为有意义的数字变量。我正在考虑将其转换为人的年龄(这很难,因为月份有不同的天数)。因此,最佳解决方案可能是创建一个双精度变量,将年龄显示为10.6或10.8,这是一个数字变量,其中包含10年8个月5天大于10年7个月12天的信息。 以下是我拥有的当前变量的一个示例 library(tibble) ..
发布时间:2022-08-18 15:07:54 其他开发

OpenRefining:如何使用第一个单元格中的描述值填充空白单元格?

如何使用第一个单元格中的描述值填充空单元格? A列 B列 Col C.&Quot;N; 选项1 A、B、C、D 选项1属性 选项1 选项1属性 选项1 选项1属性 选项1 选项1属性 选项2 C,D,F 选项2属性 选项2 选项2属性 选项2 选项2属性 选项3 D,J,Z 选项3属性 选项3 选项3属性 选项3 选项3属性 变为 A列 B列 Col C.&Q ..
发布时间:2022-03-01 18:32:45 其他开发

如何替换点(.)在句子中,除非它出现在使用正则表达式的缩写中

我希望将句子中的每个点替换为空格,但与缩写一起使用时除外。当它与缩写一起使用时,我希望将其替换为''NULL。 缩写表示至少包含两个大写字母的圆点。 我的regex正在工作,但它们捕获U.S. r1 = r'((?:[A-Z].){2,})s*' r2 = r'(?:[A-Z].){2,}' 'U.S.A is abbr x.y is not. But I.I.T. is ..
发布时间:2022-02-22 16:18:22 Python

按组求和变量并附加结果

Dataset HAVE是Recess字符的电话数据的tibble edgelist: 学生朋友 nCallsTJ斯皮内利 3TJ格雷琴 7TJ格斯6TJ文斯8TJ 国王鲍勃 1TJ 米奇 2斯皮内利 TJ 3斯皮内利文斯 2兰德尔芬斯特女士 17 数据集 NEED 包括来自 HAVE 的所有原始列,但包括一个新变量 nCallsPerStudent,这正是它听起来的样子: 学生朋友 nCa ..
发布时间:2022-01-22 11:30:19 其他开发

通过 data.table (R) 循环 grepl()

我有一个存储为 data.table DT 的数据集,如下所示: 打印(DT)类别行业1:行政管理员2:执业护士卡车3:货运卡车4:管理管理员5:仓储护士6:仓储管理员7:货运卡车8:执业护士护士9:执业护士卡车 我想将表格缩减为只有行业与类别匹配的行.我的一般方法是使用 grepl() 正则表达式匹配字符串 '^{{INDUSTRY}}[az ]+$' 和 DT$ 的每一行类别,使用 inf ..
发布时间:2022-01-13 19:28:37 其他开发

Coldfusion 9中的清洁字符串/输入

我最近一直在使用 Coldfusion 9(主要是 PHP 的背景),我正在摸索如何“清理/清理"用户提交的输入/字符串. 我想让它成为 HTMLSAFE,消除任何 javascript 或 SQL 查询注入,就像往常一样.我希望我忽略了 CF9 已经附带的某种功能. 有人能指出正确的方向吗? 解决方案 这是对 Kyle 建议的补充而不是替代答案,但评论面板对于链接来说有点垃圾 ..
发布时间:2022-01-09 15:02:16 其他开发