sqldf相关内容

在同一个调用中汇总所有组值和条件子集

我会用一个例子来说明我的问题. 示例数据: df 我想要做的是,通过ID汇总B的总和和A为“foo"时B的总和.我可以通过以下几个步骤来做到这一点: require(magrittr)要求(dplyr)df1%group_by(ID) %>%总结(sumB = sum(B))df2 %过滤器(A ==“foo")%>%group_by(ID) %>%总结(sumBfoo ..
发布时间:2021-12-23 12:11:27 其他开发

R:如何在不耗尽内存的情况下绑定两个巨大的数据帧

我有两个数据框 df1 和 df2,每个数据框大约有 1000 万行和 4 列.我使用 RODBC/sqlQuery 将它们读入 R 没有任何问题,但是当我尝试 rbind 它们时,我得到了最可怕的 R 错误消息:无法分配内存.必须有更有效的方法来更有效地执行 rbind —— 有没有人想分享他们最喜欢的技巧?例如,我在 sqldf 的文档中找到了这个例子: # rbinda7r 这是最好的 ..
发布时间:2021-12-21 10:09:36 其他开发

如何优化大型 R 数据框中每一行的过滤和计数

我有一个数据框,如下所示: 姓名日工资1 安 1 1002 安 1 1503 安 2 2004 安 3 1505 鲍勃 1 1006 鲍勃 1 2007 鲍勃 1 1508 鲍勃 2 100 对于每个唯一的姓名/日期对,我想计算一个总数范围,例如“此人当天或第二天的工资超过 175 的次数".列比工资多得多,并且有四个时间片适用于每一行的每个总计. 我目前可以通过对我的数据框进行唯一化 ..
发布时间:2021-11-16 23:19:10 其他开发

将 R 变量传递给 sql 语句

有什么办法可以将R中定义的变量传递给sqldf包中的SQL语句? 我必须运行下面的代码,我将 'v' 变量作为 '$v' 传递给 sql select 语句 for (i in 1:50){v 虽然运行了,但是返回错误的结果.[结果应该是 1000 但此代码返回 0]. 因此,我认为它不会传递变量值. 解决方案 如果 v 是一个整数,那么您不想用单引号将 $v 括起来 ..
发布时间:2021-09-16 18:38:43 其他开发

无法使用 sqldf 在 R 中的函数上使用 rank()

arm 这是我在 R 中创建的数据集. 现在我想对 b 列进行排名并按 a 列进行分组. 无论我对语法进行什么更改(例如添加 []、“"等...),以下代码都会引发此错误 sqliteSendQuery(con, statement, bind.data) 中的错误:语句中的错误:接近“(":语法错误 我使用的是“sqldf"包. arm2 如何在R的sqldf包中对 ..
发布时间:2021-09-03 20:32:54 其他开发

为另一列的每个唯一值提取包含第一个值的所有行

我正在寻找与此类似的东西 R 中列的每个唯一值仅选择第一行但我需要保留包含每个 ID 年份的第一个值的所有行.换句话说,我需要按个人 ID 对列出的第一年的数据集进行子集化.ID 可以有他们的第一个1 2 或 3 中的年份,并且应保留第一年的所有行.例如: ID ..
发布时间:2021-09-01 18:34:38 其他开发

R- sqldf 错误原始与双精度

我有一个向量 lims,有分数的限制: [1] 0.000000 7.025894 9.871630 12.411131 15.155998 18.099176 21.431354 25.391163 30.6165550 6 3 我创建了一个表格来对其他客户进行分类: lims[1]b.minSc分组 b.minSc, b.maxSc") sqliteSendQuery(conn, s ..
发布时间:2021-08-23 18:36:09 其他开发

生成序列(并在重复的情况下重新开始)并在 R 中的组内添加每个序列编号最高的新列

我正在寻找一种方法来为包含按 ID 分组的城市名称的列生成序列.重要的是,当一个城市的名称(在组内)重复时,一个新的序列必须开始.如果有新的 ID,新的序列也应该开始. 编辑: 如何创建上述序列的问题已经解决.为了稍后选择具有最高序列号的行,我正在寻找一种向数据框中添加新列的方法,该列显示每个记录、每个序列、每个 ID 的每个序列的最高编号. 以下是我想要实现的示例,基于我的数据 ..
发布时间:2021-07-19 18:45:52 其他开发

R 中的 SQLite - result_create(conn@ptr, statement) 中的错误:靠近“)";

对于这个基本问题很抱歉,但我试图在 R 中使用 sqldf 函数运行以下代码,但每次它都显示“result_create(conn@ptr, statement) 中的错误: 附近")': 语法错误",我找不到错误的确切位置. 我尝试以不同的方式缩进/格式化,但“接近 ')'"的错误指示一直存在. 似乎所有括号都可以. 代码: sqldf("选择 Cia_2、Nombre_ci ..
发布时间:2021-07-10 21:21:31 数据库

sqldf 中的 R sprintf 就像

我想在 R 中使用 sqldf 进行循环查询,以选择日期为“11/12/2015"和上午 9 点的所有非 NULL X.1 变量.示例: 开始日期 X.111/12/2015 09:1411/12/2015 09:3611/12/2015 09:54 A 日期在其他查询生成的变量中 nullob 它带有错误:Error in sprintf("SELECT count([X.1]) FRO ..
发布时间:2021-06-21 19:03:32 其他开发

在单独的表 R 中查找和计算字符串出现次数到新列

我有两个数据框.以下是示例,但应易于重现以供说明. df1 df2 我的目标是在 df1 中创建一个名为“Wins"的新列,该列在 df1 中查找学校,然后计算该学校在 df2 的“Winner"列中列出的次数. 所以希望 df1 看起来像这样: df1 我尝试了许多解决方案都无济于事,包括 sqldf.我最近的尝试如下,但它给了我一个错误,说没有适用于“group_by_" ..
发布时间:2021-06-04 20:49:41 其他开发

R中SQLDF中的日期之间的差异

我正在使用R包SQLDF,并且无法找到两个日期时间变量之间的天数.变量 ledger_entry_created_at 和 created_at 是Unix时代,当我尝试将其转换为 julianday 后减去它们时,我返回了一个 NA的向量的. 我看过上一个问题,没发现它有用,因为出于这个问题范围之外的原因,我用SQL给出了我的答案. 如果有人可以帮助我找出在SQLDF中执行此操作的方 ..
发布时间:2021-04-29 19:51:54 其他开发

R中使用sqldf的日期差异

我在数据框中有两列,我需要计算时间差.数据是来自城市开放数据的本地PD数据.下方是一列 TimeDispatch01/01/2011 12:00:37 AM到达时间01/01/2011 12:21:31 AM TimeArrival还缺少一些值,因为每次调度都不需要警察到达. 我正在尝试在R中使用sqldf来发现差异,但是它显示了此错误 sqliteSendQuery(conn,s ..
发布时间:2021-04-29 19:32:16 其他开发

R sqldf在日期范围条件中没有选择性

我正在尝试选择日期值小于某个值的行.由于我正在获取所有日期值,而不仅仅是小于该值的日期,所以似乎不起作用. 这是df结构: str(sawdf)'data.frame':83597磅.10个变量中:$ actiondate:日期,格式:"2016-05-08""2016-05-08""2016-05-09" ... 这是一些示例数据: head(sawdf)行动日期2016-05 ..
发布时间:2021-04-29 19:32:04 其他开发

sqldf:如何根据日期条件进行查询

我花了几个小时研究这个问题,但不幸的是我无处可去.我正在尝试通过使用sqldf查询数据框(结果)来获取数据的子集. 这是结果的结构: >str(结果)'data.frame':316125磅.6个变量中:$ ID:整数1 2 3 4 5 6 7 8 9 10 ...$ dt:日期,格式:"1999-12-31""1999-12-31""1999-12-31""1999-12-31" ... ..
发布时间:2021-04-29 19:22:55 其他开发