data-cleaning相关内容
摘要 给定一个包含以模式Prefix-Year.csv命名的CSV文件的目录,创建一组新的名为Prefix-Aggregate.csv的CSV文件,其中每个聚合文件是具有相同前缀的所有CSV文件的组合。 说明 我有一个包含5,500个CSV文件的目录,命名方式如下:Prefix-Year.csv。示例: 18394-1999.csv . . . //con
..
我有一个 pandas 数据帧df,其列名如下 columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select
..
在我之前的一个问题(Creating adjacency matrix with dirty dataset)中,我能够清除几乎所有的数据。谢谢你们,你们这些出色的程序员。然而,当我试图了解游乐场如何工作时,我继续遇到逗号问题。 数据集最初看起来像- Species Association Year
..
Order_id PRODUCT_NAME 1 普通-高附着力有机硅底漆-30ml,普通-天然保湿因子+HA 30ml 2 Sandal,Brown-44 3 醋酸盐正方形黑色过渡太阳镜,卡地亚-8221-边少绿色双色太阳镜,雷朋-飞行员-棕色双色-3026-钻石硬质坚硬镜片,Burberry-2A357-哈瓦那-飞行员-太阳镜,醋酸盐正方形-黑色-过渡性太阳镜,卡地亚-8221-边少绿色双
..
这是this question的续篇,在this question中,我从CDS下载了一个文件,并使用rvest使用以下脚本解压: library(rvest) download.file("https://cdsarc.cds.unistra.fr/viz-bin/nph-Cat/html?J/MNRAS/495/1706/subaru.dat.gz", "subaru.dat.gz")
..
我有一个从https://cdsarc.cds.unistra.fr/viz-bin/cat/J/MNRAS/495/1706#/browse获得的糟糕的数据集,我正在尝试使用Python和R清理它。该HTML文件看起来像this: 但当我下载文件时,它包含额外的空格作为填充,以及丢失数据的位置。这意味着我不能使用Python的.replace方法将空格更改为NAs。下载原始文件后,我使用以下脚本
..
所以我之前为污染数据集运行了一些代码,代码运行得很好。现在,我得到了这个错误: 颜色必须为aRGB十六进制值 我仅有的一行代码如下: pollution_jawn = pd.read_excel('ObservationData_irkfioc copy.xlsx') 我不知道问题出在哪里,我甚至尝试从我的jupyterHub目录中删除此文件并上载,但即使这样也不起作用。 推
..
import emoji def emoji_lis(string): _entities = [] for pos,c in enumerate(string): if c in emoji.UNICODE_EMOJI: print("Matched!!", c ,c.encode('ascii',"backslashreplace")) _entiti
..
我在R中有一个以人的完整年龄为字符串(例如,10年8个月23天)的数据集,我需要将其转换为有意义的数字变量。我正在考虑将其转换为人的年龄(这很难,因为月份有不同的天数)。因此,最佳解决方案可能是创建一个双精度变量,将年龄显示为10.6或10.8,这是一个数字变量,其中包含10年8个月5天大于10年7个月12天的信息。 以下是我拥有的当前变量的一个示例 library(tibble)
..
我有一个包含x行和y列数的大型数据集。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难从数据帧中删除它。 nonhashtag ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates'] ['Just', 'posted', 'photo', 'Rasim', 'Villa'] ['Dhab
..
我在R中处理104500个观测值的数据集。我想删除基于列名“STATE”的行,该列名为“TX”和“NY”。 我正在使用以下代码 customers
..
由于time变量(不平衡面板数据): ,我想合并不同长度的长格式数据帧: set.seed(63) #function to create a data frame that includes id, time and x func1
..
我正在尝试根据不同列中的数据替换列的值,但这不起作用。以下是一些示例数据。 df
..
我正在进行一个项目,其中我想要特定字符串的所有排列。我使用tidyr::separate_rows对特定字符串进行拆分和复制,但我希望保留原始行。 require(dplyr) require(tidyr) temp
..
如何使用第一个单元格中的描述值填充空单元格? A列 B列 Col C.&Quot;N; 选项1 A、B、C、D 选项1属性 选项1 选项1属性 选项1 选项1属性 选项1 选项1属性 选项2 C,D,F 选项2属性 选项2 选项2属性 选项2 选项2属性 选项3 D,J,Z 选项3属性 选项3 选项3属性 选项3 选项3属性 变为 A列 B列 Col C.&Q
..
我希望将句子中的每个点替换为空格,但与缩写一起使用时除外。当它与缩写一起使用时,我希望将其替换为''NULL。 缩写表示至少包含两个大写字母的圆点。 我的regex正在工作,但它们捕获U.S. r1 = r'((?:[A-Z].){2,})s*' r2 = r'(?:[A-Z].){2,}' 'U.S.A is abbr x.y is not. But I.I.T. is
..
Dataset HAVE是Recess字符的电话数据的tibble edgelist: 学生朋友 nCallsTJ斯皮内利 3TJ格雷琴 7TJ格斯6TJ文斯8TJ 国王鲍勃 1TJ 米奇 2斯皮内利 TJ 3斯皮内利文斯 2兰德尔芬斯特女士 17 数据集 NEED 包括来自 HAVE 的所有原始列,但包括一个新变量 nCallsPerStudent,这正是它听起来的样子: 学生朋友 nCa
..
我有一个存储为 data.table DT 的数据集,如下所示: 打印(DT)类别行业1:行政管理员2:执业护士卡车3:货运卡车4:管理管理员5:仓储护士6:仓储管理员7:货运卡车8:执业护士护士9:执业护士卡车 我想将表格缩减为只有行业与类别匹配的行.我的一般方法是使用 grepl() 正则表达式匹配字符串 '^{{INDUSTRY}}[az ]+$' 和 DT$ 的每一行类别,使用 inf
..
如何找到将 Year_Q 转换为日期时间的智能解决方案?我尝试使用 pd.to_datetime(working_visa_nationality['Year_Q']) 但得到错误说这无法识别.所以我尝试了一个愚蠢的方法: working_visa_nationality['Year'] = working_visa_nationality.Year_Q.str.slice(0,4)work
..
我最近一直在使用 Coldfusion 9(主要是 PHP 的背景),我正在摸索如何“清理/清理"用户提交的输入/字符串. 我想让它成为 HTMLSAFE,消除任何 javascript 或 SQL 查询注入,就像往常一样.我希望我忽略了 CF9 已经附带的某种功能. 有人能指出正确的方向吗? 解决方案 这是对 Kyle 建议的补充而不是替代答案,但评论面板对于链接来说有点垃圾
..