data-analysis相关内容
我有一个很大的数据集,当我尝试运行此代码时,出现内存错误. user_by_movie = user_items.groupby(['user_id','movie_id'])['rating'].max().unstack() 这是错误: ValueError:未堆叠的DataFrame太大,导致int32溢出 我已经在另一台机器上运行它,并且运行良好!我该如何解决该错误?
..
data [,allkneePR:= Reduce(`|`,lapply(.SD,`==`,"0082")),.SDcols = PR1:PR3] 嘿,我试图在data.table(数据集很大)中的一系列行和列中寻找不同的诊断c("0082","0083","0084").如果任何一个PR1:PR3列中的值之一是"0082","0083"或"0084",则我希望另一列指示为true.现在,这
..
我正在尝试完成与此处类似的操作: https://www.opportunityatlas.org/.如果您继续浏览此链接,然后点击“显示分布" 以查看图表,然后选择“在屏幕上" ,然后在地图上移动光标,您将看到矩形的大小会发生变化,更新模式也会起作用,即,如果矩形已经存在,则它将水平移动到新值. 我试图做同样的事情,但是无法实现更新部分.你能指出我错过的地方吗?我已经附加了一部分代码,其中
..
使用以下玩具示例,尝试逐步介绍如何将倒数函数与数据拟合: #包括库(ggplot2)图书馆(预测)图书馆(秤)#制作数据样本数据
..
我正在尝试使用python使函数适合实验的数据集.我可以得到一个非常好的近似值,拟合度看起来还不错,但是给定的参数误差非常高,我不确定如何解决此问题. 该函数如下所示:函数 数据由时间数据集和y数据集组成.变量"ve"是一个线性速度函数,这就是为什么在代码中将其替换为"a * x + b"的原因.现在拟合看起来确实很好,并且理论上该函数应该可以拟合数据,但是误差非常高.代码如下:
..
我有一个由两个一阶ODE组成的系统,它们是非线性的,因此很难以封闭形式解析地求解.我想将这个ODE系统的数值解拟合到一个数据集.我的数据集仅适用于ODE系统中两个变量之一.我该怎么办?这并没有帮助,因为那里只有一个变量. 我当前导致错误的代码是: 将numpy导入为np从scipy.integrate导入odeint从scipy.optimize导入curve_fitdef f(y,t,a
..
我正在尝试从.csv文件进行解析: planets = pd.read_csv("planets.csv",sep =',') 但是我总是以这个错误结尾: ParserError:令牌化数据时出错.C错误:第13行中应有1个字段,看到9 这是我的csv文件的前几行的样子: #此文件是由测试产生的#2018年4月3日星期二06:03:27##COLUMN pl_hostname:主
..
我在这样的数组中有一个点列表 points = [[1,2]; [2,5]; [7,1] ... [x,y]] x在0到1020之间,y在0到1920之间. 如何在Matlab中计算点数组的熵? 非常感谢! 我假设您想将每个 [x,y] 点视为一个数据点.让我们定义一些示例性数据: A = [[1,2]; [2,5]; [7,1]; [1,2]]; 首先我们给相等的点
..
嗨,我有两个如下所示的数据框 DF1 Alpha |数值|特殊 和| 1 | @ 或| 2 | $ | 3 | & | 4 | | 5 | 和 DF2单列 内容| 男孩或女孩| 学校@晨| 我想搜索DF1列中是否有人在DF2内容列中有关键字并且输出应该在新的DF中 output_DF ou
..
我有两个数据框, new1。 名称城市 0 sri韩元chn 1 pechi韩元浦那 2 Ram韩元妈妈 0 pec韩元喀拉拉邦 new3 req 0 pec 1 mut 我尝试过, mask = new1.Name.str.contains(“ |” .join(new3.req.values.tolist())) new1 [
..
我有一个这样的数据框。 项目4 Project1 Project2 Project3 0 NaN laptio AB NaN 1 NaN窗口十个NaN 0一个NaN NaN 1两个NaN NaN 我要从“项目4”列中删除NaN值 我想要的输出应该是 df, Project 4 Project1 Project2 Projec
..
我在闪亮地使用以下两个输入函数代码: selectInput(“ categoryVisu”,label =“ SELECT CATEGORY “,choices = list(” Full“ =” full“,” Fact“ =” fact“,” Fact Positive“ =” factpos“,selected =” full“,多个= TRUE) 和 s
..
名称类类别标签 ram A红色1 ravi A红色2 gopal B绿色3 Sri C红色4 my_list1 = [“类别”] my_list2 = [“类别”] 我需要获取这两列之间的组合计数。 我正在尝试获取某些选定列的组合。 my_list2甚至有多个。 我尝试过, df [mylist1] .value_counts()
..
我有一个像这样的df, 案例步骤深价值 0案例1 1 ram在印度ram ,cri 1 NaN 2 ram玩板球NaN 2例2 1 ravi踢足球ravi 3 NaN 2 ravi作品welln NaN 4例3 1斯里买了车sri 5 NaN 2 sri外出NaN 和一本字典, my_dict = {ram:1,cricket:1,ravi:2.5,s
..
我的数据框中有11个变量。第一个是观察的唯一标识符(平面)。第二个是从1到21的数字,表示给定飞机的飞行。其余变量是时间,速度,距离等。 我要做的是为每个航班组(数量)创建新变量,例如 time_1 , time_2 ,..., velocity_1 , velocity_2 等,因此减少了观察次数(重复的观察次数)。 我并不是真的有想法如何开始。我在考虑一个类似mutate的函数:
..
这里是我的单列数据集的示例: 行 141,523 146,785 143,667 65,560 88,524 148,422 我读了这篇文件作为.csv文件,将其转换为ts对象,然后将其绘制: ##读取实际行数CSV文件 Aclines
..
我正在尝试复制一项研究的一些结果。因此,通常我需要将回归结果与我要复制的研究结果进行比较。 我一直在excel中将esttab结果与研究结果手动合并。但是,这很乏味,因为我正在处理很多变量。我想知道是否有一种方法可以存储研究结果,然后称其为回归结果的旁边。我尝试将它们存储为标量,并使用estout调用它们,但这将存储的标量置于回归结果之下。我希望它们并列作为另一列。 示例: 参考研究
..
我遇到一个问题,在执行查询后,我得到这样的结果 DevID差异 ----------------- 99 5 99 10 99 5 99 4 12 8 12 9 12 5 12 6 我不希望重复的ID , 我应该只能显示一个id。 这可以通过使用distinct轻松实现,但是问题是我还需要显示“差异”列。我不介意diff中包含哪个值,但
..
我有一个庞大的数据集,其中包含从2010年到2019年的10种水资源的细菌样本(4种细菌)。某些值缺失了,因此我们无需在图表或分析中将它们包括在内。 $ b 我想绘制所有年份每种资源的每种细菌的时间序列。 最好的方法是什么? library(“ ggplot2”) BactData = read .csv('Råvannsdata_Bergen_2010_2018a.csv',se
..
我是python数据分析的新手。以下是一个示例数据集: d2 = {'Index':[0,0,0,0,0,0, 0,0,1,1,1,1,1,1,1,1,1],'journey_time':[95.546,132.945,147.538,301.307,42.907,129.008,102.900,112.620,234.334,103.321,82.337,154.817, 20.076,
..