statistics相关内容
我的数据库中有一些条目,在我的例子中是带有评级和受欢迎程度以及其他因素的视频.在所有这些因素中,我计算了一个似然因子,或者更多的说一个增强因子. 所以我基本上有字段 ID 和 BOOST.这个提升的计算方式是一个整数,它表示相比之下这个条目应该被命中的频率的百分比. ID 提升1 12 23 7 因此,如果我无限期地运行我的随机函数,我最终应该会在 ID 1 上得到 X 次命中,在 ID
..
这是我的代码和绘图结果,由于一些异常值,x 轴很长.有没有一种简单的方法可以在 R 中仅按 0-90% 或 0-95% 的百分位数过滤 df$foo ,以便我只能绘制正常值?谢谢. df 解决方案 也许这就是您要找的? a = c(rnorm(99), 50) #创建一些数据quant
..
我有一个列表形式的心率数据,其中包含四个类别 1AS、1CS、1AI、1CI,每个类别的大小各不相同.我想输出列表中每个类别的均值和标准差.我有这种格式的数据来计算我已经成功完成的 ANOVA 和 Tukey,但平均值让我难住了! 集团人力资源1 1AS 3002 1AS 2803 1AS 2604 1AS 2505 1AS 3006 1AS 2727 1AS 2508 1AS 1989 1A
..
..
我在 R 中有一个非常简单的脚本.它加载两个数据帧,然后使用 mixOmics 执行 rCCA: system('defaults write org.R-project.R force.LANG en_US.UTF-8')## install.packages("mixOmics")图书馆(mixOmics)TCIA
..
可以获取视频的公开统计数据吗? 使用这样的东西,我可以得到视频的总观看次数和喜欢计数: https://www.googleapis.com/youtube/v3/videos?part=statistics&key=API_KEY&id=ekzHIouo8Q4 有可能获得那些公开的统计数据吗?我发现了这个问题 Youtube GData API:检索公共统计数据 但也许有些
..
我的代码如下,我想改变ggplot的标签,但是R总是提醒我: 单位错误(tic_pos.c, "mm") : 'x' 和 'units' 必须有长度 >0 我该怎么办? ggplot(mat,aes(x=sales,col=type))+geom_density()+labels("red_sold","blue_sold","yellow_sold") 解决方案 mat$type 是一
..
我正在比较一些替代线性回归技术. 显然,这些将相对于 OLS(普通最小二乘法)进行基准测试. 但我只想要一种纯 OLS 方法,无需对数据进行预处理以发现使用 regress() 时发现的数据中的病态. 我曾希望简单地使用经典的 (XX)^-1XY 表达式?然而,这将需要使用 inv() 函数,但在 inv() 的 MATLAB 指南页面中,它建议您在执行时使用 mldivide最
..
我有一个由多组组成的表格,例如每组五行.每个组中的每一行都拥有该组独有的 date 值. 我想在查询中做的是遍历表,并在此 date 值更改时增加用户变量 (@count).也就是说,@count 应该等于组数,而不是行数. 我当前的查询如下所示,以防您想知道: SELECT @row := @row +1 AS rownum, dateFROM ( SELECT @row := 0
..
我有 30 个来自我运行的实验的 30 次重复运行的 csv 数据文件.我正在使用 pandas 的 read_csv() 函数将数据读入 DataFrame 列表.我想从此列表中创建一个 DataFrame,其中包含每列 30 个 DataFrame 的平均值.有没有内置的方法来实现这一点? 为了澄清,我将在下面的答案中扩展示例.假设我有两个 DataFrame: >>>X乙丙0 -0.
..
我需要计算每个卖家 ID 的周期中位数(参见下面的简化模型).问题是我无法构建 ORM 查询. 型号 类 MyModel:period = models.IntegerField(null=True, default=None)Seller_ids = ArrayField(models.IntegerField(), default=list)aux = JSONField(默认=字典
..
用户想要对 var/covar 矩阵中每对变量之间的相关性强加一个唯一的、非平凡的上/下限. 例如:我想要一个方差矩阵,其中所有变量都为 0.9 > |rho(x_i,x_j)|> 0.6,rho(x_i,x_j) 是变量 x_i 和 x_j 之间的相关性. 谢谢. 好的,已经找到了一些快速而肮脏的解决方案,但如果有人知道更准确到达那里的方法,欢迎使用. 我丢失了原来的登录
..
我正在尝试将 ARMA 模型拟合到存储在 Pandas 数据帧中的时间序列.数据框有一列名为“val"的 numpy.float64 类型的值和一个熊猫时间戳索引.时间戳采用“年-月-日小时:分钟:秒"格式.我了解以下代码: from statsmodels.tsa.arima_model import ARMA模型 = ARMA(df["val"], (1,0)) 给我错误信息: Valu
..
如何有效地找到数组中每个元素的排名,在平局的情况下求平均值?例如: float[] rank(T)(T[] input) {//执行}自动 foo = rank([3,6,4,2,2]);//foo == [3, 5, 4, 1.5, 1.5] 我能想到的唯一方法是分配 3 个数组: 输入数组的副本,因为它必须排序并且我们不拥有它. 一个数组,用于跟踪输入数组的排序顺序. 要返回的排
..
我正在为一个严重依赖 scipy.stats.stats(scipy 版本 0.9.0)的包创建一个由 django 驱动的 (1.3) 接口,称为 ovl .在早期的开发阶段,使用 djangos 自己的开发服务器,这是没有问题的.使用apache debian/2.2.9和mod_wsgi 3.3部署后,出现严重问题. 无论我试图在浏览器中加载什么视图,它都会开始加载,并持续加载 5 分
..
我正在尝试在 Python 中的 statsmodels 中运行增强的 Dickey-Fuller 测试,但我似乎遗漏了一些东西. 这是我正在尝试的代码: 将 numpy 导入为 np将 statsmodels.tsa.stattools 导入为 tsx = np.array([1,2,3,4,3,4,2,3])结果 = ts.adfuller(x) 我收到以下错误: 回溯(最近一次调
..
我有一个数据框,它在日期列中有 DateTime 值,在三个列中包含每个日期时间的计数. 我正在尝试将数据与三列的计数每小时分组 聚合函数适用于单列,但我正在尝试为整个数据框执行此操作.有什么提示吗? aggregate(DateFreq$ColA,by=list((substr(DateFreq$Date,1,13))),sum) 解决方案 你可以使用aggregate的for
..
考虑具有以下百分位数的系列: >df['col_1'].describe(percentiles=np.linspace(0, 1, 20))计数 13859.000000平均 421.772842标准 14665.298998最低 1.2017550% 1.2017555.3% 1.43069510.5% 1.43841715.8% 1.46646221.1% 1.47305026.3% 1.
..
我正在使用 dplyr,我想知道是否可以在一行中计算组之间的差异.在下面的小例子中,任务是计算 A 组和 B 组标准化“cent"变量之间的差异. 库(dplyr)# 创建一个小的data.frame组
..
我想为我的网站制作统计数据.我想做的一件事是知道有多少人为我的网站添加了书签.如果不进行调查,最好的方法是什么? 解决方案 最好的办法是拥有一个 Javascript“给我们添加书签"链接,该链接可以为网站添加书签,并对后端脚本进行 AJAX 调用以存储有关新书签的信息在你的数据库中.这不会捕捉到直接使用浏览器为您的网站添加书签的人,但它会让您对网站的粘性有所了解.
..