data-analysis 第4页 - IT屋-程序员软件开发技术分享社区

Python:未堆叠的DataFrame太大，导致int32溢出

我有一个很大的数据集，当我尝试运行此代码时，出现内存错误. user_by_movie = user_items.groupby(['user_id'，'movie_id'])['rating'].max().unstack() 这是错误: ValueError:未堆叠的DataFrame太大，导致int32溢出我已经在另一台机器上运行它，并且运行良好！我该如何解决该错误? ..

基于跨多个列的多个可能的单元格可能性来创建新列

data [，allkneePR:= Reduce(`|`，lapply(.SD，`==`，"0082"))，.SDcols = PR1:PR3] 嘿，我试图在data.table(数据集很大)中的一系列行和列中寻找不同的诊断c("0082"，"0083"，"0084").如果任何一个PR1:PR3列中的值之一是"0082"，"0083"或"0084"，则我希望另一列指示为true.现在，这 ..

发布时间：2021-04-28 19:40:40 r dataframe data.table multiple-columns data-analysis 其他开发

D3js更新直方图元素不起作用(常规更新模式)

我正在尝试完成与此处类似的操作: https://www.opportunityatlas.org/.如果您继续浏览此链接，然后点击“显示分布" 以查看图表，然后选择“在屏幕上" ，然后在地图上移动光标，您将看到矩形的大小会发生变化，更新模式也会起作用，即，如果矩形已经存在，则它将水平移动到新值. 我试图做同样的事情，但是无法实现更新部分.你能指出我错过的地方吗?我已经附加了一部分代码，其中 ..

发布时间：2021-04-28 18:38:21 javascript d3.js data-science data-visualization data-analysis 前端开发

在R中对嘈杂的1/x数据建模，从而获得“基本上完美的拟合".从摘要-为什么?

使用以下玩具示例，尝试逐步介绍如何将倒数函数与数据拟合: #包括库(ggplot2)图书馆(预测)图书馆(秤)#制作数据样本数据 ..

发布时间：2021-04-27 20:34:10 r data-science curve-fitting data-analysis 其他开发

如何在Python curve_fit中返回拟合错误

我正在尝试使用python使函数适合实验的数据集.我可以得到一个非常好的近似值，拟合度看起来还不错，但是给定的参数误差非常高，我不确定如何解决此问题. 该函数如下所示:函数数据由时间数据集和y数据集组成.变量"ve"是一个线性速度函数，这就是为什么在代码中将其替换为"a * x + b"的原因.现在拟合看起来确实很好，并且理论上该函数应该可以拟合数据，但是误差非常高.代码如下: ..

发布时间：2021-04-27 20:34:07 python curve-fitting data-analysis data-fitting Python

在python中将数据拟合到ode的数值解

我有一个由两个一阶ODE组成的系统，它们是非线性的，因此很难以封闭形式解析地求解.我想将这个ODE系统的数值解拟合到一个数据集.我的数据集仅适用于ODE系统中两个变量之一.我该怎么办?这并没有帮助，因为那里只有一个变量. 我当前导致错误的代码是: 将numpy导入为np从scipy.integrate导入odeint从scipy.optimize导入curve_fitdef f(y，t，a ..

发布时间：2021-04-27 20:32:55 python numpy scipy curve-fitting data-analysis Python

熊猫解析csv错误-预期找到1个字段9

我正在尝试从.csv文件进行解析: planets = pd.read_csv("planets.csv"，sep ='，') 但是我总是以这个错误结尾: ParserError:令牌化数据时出错.C错误:第13行中应有1个字段，看到9 这是我的csv文件的前几行的样子: #此文件是由测试产生的#2018年4月3日星期二06:03:27##COLUMN pl_hostname:主 ..

发布时间：2021-04-27 19:45:47 python python-3.x pandas csv data-analysis Python

计算Matlab中2D点列表的熵

我在这样的数组中有一个点列表 points = [[1,2]; [2,5]; [7,1] ... [x，y]] x在0到1020之间，y在0到1920之间. 如何在Matlab中计算点数组的熵? 非常感谢！我假设您想将每个 [x，y] 点视为一个数据点.让我们定义一些示例性数据: A = [[1,2]; [2,5]; [7,1]; [1,2]]; 首先我们给相等的点 ..

发布时间：2021-04-09 20:07:00 arrays matlab statistics data-analysis entropy 其他开发

使用python搜索数据框的另一列或另一个数据框中是否存在任何单词

嗨，我有两个如下所示的数据框 DF1 Alpha |数值|特殊和| 1 | @ 或| 2 | $ | 3 | & | 4 | | 5 | 和 DF2单列内容| 男孩或女孩| 学校@晨| 我想搜索DF1列中是否有人在DF2内容列中有关键字并且输出应该在新的DF中 output_DF ou ..

发布时间：2020-10-15 21:39:18 python pandas dataframe data-analysis Python

比较两个Dataframe列以检查它们在python中是否具有相同的值

我有两个数据框， new1。名称城市 0 sri韩元chn 1 pechi韩元浦那 2 Ram韩元妈妈 0 pec韩元喀拉拉邦 new3 req 0 pec 1 mut 我尝试过， mask = new1.Name.str.contains（“ |” .join（new3.req.values.tolist（））） new1 [ ..

发布时间：2020-10-15 21:39:13 python pandas dataframe data-analysis Python

如果在python的数据框中为NaN，则删除单元格

我有一个这样的数据框。项目4 Project1 Project2 Project3 0 NaN laptio AB NaN 1 NaN窗口十个NaN 0一个NaN NaN 1两个NaN NaN 我要从“项目4”列中删除NaN值我想要的输出应该是 df， Project 4 Project1 Project2 Projec ..

发布时间：2020-10-15 21:39:07 python pandas dataframe data-analysis Python

如何在Shiny中绘制来自selectInput（）函数的选定输入？

我在闪亮地使用以下两个输入函数代码： selectInput（“ categoryVisu”，label =“ SELECT CATEGORY “，choices = list（” Full“ =” full“，” Fact“ =” fact“，” Fact Positive“ =” factpos“，selected =” full“，多个= TRUE）和 s ..

发布时间：2020-10-15 21:38:03 r input shiny data-analysis 其他开发

根据多种条件分析数据框

名称类类别标签 ram A红色1 ravi A红色2 gopal B绿色3 Sri C红色4 my_list1 = [“类别”] my_list2 = [“类别”] 我需要获取这两列之间的组合计数。我正在尝试获取某些选定列的组合。 my_list2甚至有多个。我尝试过， df [mylist1] .value_counts（） ..

发布时间：2020-10-15 21:37:58 python pandas dataframe filtering data-analysis Python

如何根据字典条件重新排序熊猫数据框

我有一个像这样的df，案例步骤深价值 0案例1 1 ram在印度ram ，cri 1 NaN 2 ram玩板球NaN 2例2 1 ravi踢足球ravi 3 NaN 2 ravi作品welln NaN 4例3 1斯里买了车sri 5 NaN 2 sri外出NaN 和一本字典， my_dict = {ram：1，cricket：1，ravi：2.5，s ..

发布时间：2020-10-15 21:37:57 python pandas dataframe scipy data-analysis Python

为R中的每个观察组创建新变量

我的数据框中有11个变量。第一个是观察的唯一标识符（平面）。第二个是从1到21的数字，表示给定飞机的飞行。其余变量是时间，速度，距离等。我要做的是为每个航班组（数量）创建新变量，例如 time_1 ， time_2 ，...， velocity_1 ， velocity_2 等，因此减少了观察次数（重复的观察次数）。我并不是真的有想法如何开始。我在考虑一个类似mutate的函数： ..

发布时间：2020-10-15 21:36:51 r data-analysis 其他开发

在R中创建时间序列图时出错：plot.window（xlim，ylim，log，...）中的错误：需要有限的'ylim'值

这里是我的单列数据集的示例：行 141,523 146,785 143,667 65,560 88,524 148,422 我读了这篇文件作为.csv文件，将其转换为ts对象，然后将其绘制： ##读取实际行数CSV文件 Aclines ..

发布时间：2020-10-15 21:36:48 r time-series data-analysis 其他开发

统计：将回归结果与其他结果结合起来

我正在尝试复制一项研究的一些结果。因此，通常我需要将回归结果与我要复制的研究结果进行比较。我一直在excel中将esttab结果与研究结果手动合并。但是，这很乏味，因为我正在处理很多变量。我想知道是否有一种方法可以存储研究结果，然后称其为回归结果的旁边。我尝试将它们存储为标量，并使用estout调用它们，但这将存储的标量置于回归结果之下。我希望它们并列作为另一列。示例：参考研究 ..

发布时间：2020-10-15 21:36:46 stata data-analysis 其他开发

SQL：为表中的所有值集显示不同的ID

我遇到一个问题，在执行查询后，我得到这样的结果 DevID差异 ----------------- 99 5 99 10 99 5 99 4 12 8 12 9 12 5 12 6 我不希望重复的ID ，我应该只能显示一个id。这可以通过使用distinct轻松实现，但是问题是我还需要显示“差异”列。我不介意diff中包含哪个值，但 ..

发布时间：2020-10-15 21:36:43 sql sql-server data-analysis 数据库

如何在ggplot的x轴上将日期绘制为日期（而不是数字或字符）？

我有一个庞大的数据集，其中包含从2010年到2019年的10种水资源的细菌样本（4种细菌）。某些值缺失了，因此我们无需在图表或分析中将它们包括在内。 $ b 我想绘制所有年份每种资源的每种细菌的时间序列。最好的方法是什么？ library（“ ggplot2”） BactData = read .csv（'Råvannsdata_Bergen_2010_2018a.csv'，se ..

发布时间：2020-10-15 21:36:41 r plot data-analysis 其他开发

如何基于另一列的特定值对python数据框进行操作？

我是python数据分析的新手。以下是一个示例数据集： d2 = {'Index'：[0,0,0,0,0,0， 0,0,1,1,1,1,1,1,1,1,1]，'journey_time'：[95.546,132.945,147.538,301.307,42.907,129.008,102.900,112.620,234.334,103.321,82.337,154.817， 20.076, ..

发布时间：2020-10-15 21:36:25 python numpy dataframe data-analysis Python

data-analysis相关内容