dataframe相关内容
我有一个数据框ABC,并且想要将该数据框子集为仅包括具有某一变量z的第n个最高值的行。我知道这里有一个简单的解决方案: library(plyr) abc
..
R数据框。它大约有十几列和150行左右。在以下两种情况下,我希望遍历每一行并将其删除 第8列的值未定义 第8列中其上一行的值已定义。 我的代码看起来是这样的,但它总是崩溃。这一定是个愚蠢的错误,但我想不出来。 for (i in 2:nrow(newfile)){ if (is.na(newfile[i,8]) && !is.na(newfile[(i-1),8]){
..
我有一个通过追加4个数据帧创建的数据帧(index=date)。正因为如此,我的索引中有重复项,通常同一天有3个nans和1个值。 我的目标是将此数据帧上采样到每天的频率(df = df.resample('1D)),但在此之前,我必须删除重复项。 我想删除重复的时间,但根据两个条件: 对于同一天,如果我们至少有1个值,则计算这些值的纳平均值,然后丢弃其余的。 同一天,如果我们只有N
..
假设我有一个包含列‘A’、‘B’、‘C’的DataFrame DF。 我想计算‘B’列中按‘A’分组的NULL值的数量,并根据它创建一个词典: 尝试以下操作失败: df.groupby('A')['B'].isnull().sum().to_dict() 如有任何帮助,将不胜感激。 推荐答案 安装 df = pd.DataFrame(dict(A=[1, 2] * 3
..
我有如下所示的数据帧 stud_name act_qtr year yr_qty qtr mov_avg_full mov_avg_2qtr_min_period 0 ABC Q2 2014 2014Q2 NaN NaN NaN 1 ABC Q1 2016 2016Q1 Q1 13.0 14.5 2 ABC Q4 2016 2
..
我想知道如何将for loop的输出另存为data.frame? 假设使用mtcars数据集,我有以下for loop脚本: for (i in seq_len(nrow(mtcars))) { if (i
..
我无法让 pandas 的rolling函数执行我想要的操作。我想让每个FROW计算到目前为止组内的最大值。下面是一个例子: df = pd.DataFrame([[1,3], [1,6], [1,3], [2,2], [2,1]], columns=['id', 'value']) 看起来像 id value 0 1 3 1 1 6 2 1
..
我有一个有200多列的dataframe。问题是,在生成订单时,订单是 ['Q1.3','Q6.1','Q1.2','Q1.1',......] 我需要按如下方式对列进行排序: ['Q1.1','Q1.2','Q1.3',.....'Q6.1',......] 有什么方法可以在Python中完成此操作吗? 推荐答案 df = df.reindex(sorted(df.c
..
我正在尝试浏览分层数据帧,并将每条可能的路由记录到另一个数据帧中。这些路线的深度可以可变。 原始数据帧(DF)。最高列表示父列中的值不是任何: 的子值 父级 子项 最高 a b 1 b c 0 b d 0 d e 0 最终目标数据帧: 级别3 级别2 级别1 级别0 a b c a b d e 这就是我目前拥有的 def search(parent
..
首先,我想说我对R是个新手。这个问题令人沮丧,简直令人难以置信。我试过申请、申请和申请。所有这些都有错误。我迷路了。 我要做的是,如果记录没有时间(其中为NA),则从“结果”中提取时间,并将其放入“记录”中的时间中。 我已经在传统的for循环中做到了这一点,但它使代码难以阅读。我已经阅读了应用函数可以让这变得更容易。 Data Frame "Results" ID Time(se
..
这是与How to identify which columns are not "NA" per row in a matrix?相同的问题,但针对的是数据帧而不是矩阵。 我有一个205行62列的数据帧。我想为值不是NA的每一行标识列名。例如: col1 col2 col3 col4 col5 col6 row1 NA NA NA NA fact
..
原始数据: V1 V2 1 c1 a 2 c2 b 3 c 4 d 5 c3 e 6 f 7 c4 g 可重复的样本数据 V1 = c('c1','c2',NA,NA,'c3',NA,'c4') V2 = c('a','b','c','d','e','f','g') data.frame(V1,V2) 预期产
..
我要从包含列表嵌套列表作为值的现有列创建两个列。 由3个公司参与者及其角色组成的记录行: **row 1** [{'roles': [{'type': 'director'}, {'type': 'founder'}, {'type': 'owner'}, {'type': 'real_owner'}], 'life': {'name': 'Lichun Du'}}] **row 2
..
我要将此格式的数据帧(Tbl)转换为以下嵌套列表(Tbllst): library(tidyr) tbl
..
我正在尝试使用 pandas 读取csv文件 df1 = pd.read_csv('panda_error.csv', header=None, sep=',') 但我收到此错误: ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10 为了便于重现,这里是CSV文件pan
..
我有这个数据帧- data = [(0,1,1,201505,3), (1,1,1,201506,5), (2,1,1,201507,7), (3,1,1,201508,2), (4,2,2,201750,3), (5,2,2,201751,0), (6,2,2,201752,1),
..
在R中有没有办法检查一列中的值是否包含另一列中的值?在下面的示例中,我试图查看col2中的值是否包含在col1中的值中(独立于每一行),但收到一条警告消息:“参数‘Pattern’的长度>1,将只使用第一个元素”。标志栏第一行/最后一行应显示“是”,第二行和第三行应显示“否”。如有任何关于如何解决的想法,我们将不胜感激。 col1
..
我正在尝试将多个函数应用于同一个DataFrame,但我无法成功地将列名作为参数传递,该参数使用purrr::imap。但是,我一直收到以下错误: UseMethod(&QOOT;SELECT&QOOT;)中出错:没有适用于‘SELECT’的方法 应用于类&Character&Quot;的对象 我尝试了在SO上找到的所有组合(例如,使用!!!、[[、enquo、sys.lang等等)。当我
..
我正在处理嵌套的数据帧,希望将顶级数据帧的名称和包含低级数据帧的列的名称传递给使用Purrr::map迭代低级数据框的函数。 这里有一个玩具示例。 library(dplyr) library(purrr) library(tibble) library(tidyr) df1
..
我有以下数据框(由负数和正数组成): df.head() Out[39]: Prices 0 -445.0 1 -2058.0 2 -954.0 3 -520.0 4 -730.0 我正在尝试更改价格列,以便在将其导出到Excel电子表格时显示为货币。我使用的以下命令运行良好: df['Prices'] = df['Prices'].map("${:,.
..