statistics相关内容

如何在每个波段/bin中以数据百分比作为标签绘制正态分布?

在绘制数据的正态分布图时,我们如何使用 matplotlib/seaborn 或 plotly 在每个条带宽度为 1 个标准差的每个 bin 中放置如下图所示的标签? 目前,我的绘图是这样的: hmean = np.mean(data)hstd = np.std(数据)pdf = stats.norm.pdf(数据,hmean,hstd)plt.plot(数据,pdf) 解决方案 虽然 ..
发布时间:2022-01-21 15:11:30 Python

如果落在由 R 中另一个数据集中的两个变量定义的范围内,则从一个数据集中获取变量值

我有一个关于 R 中日期操作的问题.我已经环顾了好几天,但在网上找不到任何帮助.我有一个数据集,其中有 id 和两个日期,另一个数据集具有相同的 id 变量、日期和价格.例如: x = data.frame(id = c("A","B","C","C"),date1 = c("29/05/2013", "23/08/2011", "25/09/2011", "18/11/2011"),dat ..
发布时间:2022-01-21 13:39:39 其他开发

如何使用 R 运行 ldap 查询?

我想针对 LDAP 目录查询员工在部门和组中的分布情况... 类似:“给我一个组所有成员的部门名称"然后使用R进行频率分析,但我找不到任何关于如何连接和运行的示例使用 R 的 LDAP 查询. RCurl 似乎有某种支持( http://cran.r-project.org/web/packages/RCurl/index.html): 此外,底层实现功能强大且广泛,支持 FTP ..
发布时间:2022-01-17 19:34:28 其他开发

在地图减少中计算中位数

有人可以举例说明 map reduce 中中位数/分位数的计算吗? 我对 Datafu 的中位数的理解是,'n' 个映射器对数据并将数据发送到负责排序的“1"reducer来自 n 个映射器的所有数据并找到中值(中间值)我的理解正确吗?, 如果是这样,这种方法是否适用于大量数据,我可以清楚地看到一个减速器努力完成最后的任务.谢谢 解决方案 试图在一个系列中找到中位数(中间数)将 ..
发布时间:2022-01-13 23:23:19 其他开发

R - 快速二样本 t 检验

我想使用单独的分组在 R 中执行两个样本 t 检验.t.test 必须是“无偏的",这意味着对于外部组(下面的第 2 组)中的所有事务,必须为每个内部组(下面的第 1 组)运行 T 测试,例如:“内部组 A"与“内部组不是 A".下面显示的 for 循环代码可能比口头解释更清楚... 我当前的代码如下.有谁知道更快/更好的方法来做到这一点?可以使用任何包,但目前使用的是 data.table ..
发布时间:2022-01-13 19:33:26 其他开发

如何用中位数填充 NA?

示例数据: set.seed(1)df 请告诉我,我如何将 df$value 中的 NA 替换为其他月份的中位数?“值"必须包含同一月份所有先前值的中值.也就是说,如果当前月份是 5 月,“值"必须包含 5 月份所有先前值的中值. 解决方案 或者用ave df 既然有这么多答案,让我们看看哪个最快. plyr2 ..
发布时间:2022-01-13 19:03:19 其他开发

简单统计 - 用于计算平均值、标准差等的 Java 包

您能否推荐一些简单的 Java 统计数据包? 我不一定需要任何高级的东西.我很惊讶 java.lang.Math 包中似乎没有计算平均值的函数... 你们用什么来做这个的? 编辑 关于: 写一个简单的类有多难计算均值和标准的偏差? 嗯,不难.我只是在手工编码后才问这个问题.但是,当我需要这些最简单的功能时,手头没有这些功能,这只会增加我的 Java 挫败感.我不 ..
发布时间:2022-01-13 16:49:07 Java开发

在 ARIMA 或 VAR 模型中选择特定的滞后

我已经看到这个问题提出 这里和here 但不幸的是,答案并不令人满意.在 VAR 中的 p 参数或 arima 中的 order 参数中输入滞后,R 将包括所有滞后于或低于该规定值. 但是,如果您只想要特定的延迟怎么办?例如,如果我只想在 VAR 中使用滞后 1、2 和 4 怎么办?在 VAR 中输入 P=4 会给我滞后 1、2、3 和 4,但我想排除第三个滞后. 在第一个链接中,用户 ..
发布时间:2022-01-11 10:15:13 其他开发

存储时间序列数据的最佳开源解决方案是什么?

我有兴趣监视一些对象.我希望每 15 分钟获得大约 10000 个数据点.(也许一开始不是,但这是“一般的球场").我还希望能够获得每日、每周、每月和每年的统计数据.将数据保持最高分辨率(15 分钟)两个月以上并不重要. 我正在考虑存储这些数据的各种方法,并且一直在研究经典的关系数据库或无模式数据库(例如 SimpleDB). 我的问题是,这样做的最佳方式是什么?我更喜欢开源(免费)解 ..
发布时间:2022-01-11 10:05:17 Python

通用时间序列在线异常值检测的简单算法

我正在处理大量时间序列.这些时间序列基本上是每 10 分钟进行一次的网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量). 我想要一个简单的算法来进行在线“异常值检测".基本上,我想将每个时间序列的整个历史数据保存在内存中(或磁盘上),并且我想检测实时场景中的任何异常值(每次捕获新样本时).实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但接下来 ..
发布时间:2022-01-11 10:04:46 其他开发

将ARMA模型拟合到python中按时间索引的时间序列

我正在尝试将 ARMA 模型拟合到存储在 pandas 数据框中的时间序列.数据框有一列名为“val"的 numpy.float64 类型的值和一个 pandas 时间戳索引.时间戳采用“年-月-日时:分:秒"格式.我理解以下代码: 从 statsmodels.tsa.arima_model 导入 ARMA模型 = ARMA(df["val"], (1,0)) 给我错误信息: ValueEr ..
发布时间:2022-01-11 09:51:28 Python

R刻度数据:将日期和时间合并到一个对象中

我目前正在使用 R 处理刻度数据,我想将日期和时间合并到一个对象中,因为我需要获得一个精确的时间对象来计算我的数据的一些统计信息.这是我的数据的样子: 日期时间价格标志交换2 XXH10 2010-02-02 08:00:03 2787 1824 E3 XXH10 2010-02-02 08:00:04 2786 3 E4 XXH10 2010-02-02 08:00:04 2787 6 E5 ..
发布时间:2022-01-11 09:11:32 其他开发

在 SAS,proc summary 中哪些统计数据计算得更快?

我需要一个理论上的答案. 假设您有一个包含 15 亿行的表(该表是使用 DB2-Blu 创建为基于列的). 您正在使用 SAS,您将使用 Proc Summary 进行一些统计,例如最小/最大/平均值、标准差值和 percentile-10、percentile-90 通过您的同行组. 例如,您有 30.000 个对等组,每个对等组中有 50.000 个值(总计 15 亿个值). ..
发布时间:2022-01-08 17:37:01 其他开发

如何计算 SAS 表中的观察数?

我对 SAS 很陌生.现在,我有一个 SAS 数据表如下: ID 分数------------------01 102 303 404 2 有没有办法仅使用 PROC SORT 和 DATA 步骤保存此表中的观察次数?我想将值保存在日志窗口中,就像 SAS 日志脚本中的“hold N=4". 对不起,我的描述不专业.提前致谢. 解决方案 在 set 语句中使用 nobs=. ..
发布时间:2022-01-08 17:24:54 其他开发

R中数据帧的[1],[1,],[,1],[[1]]有什么区别?

可能的重复: 在 R 中,什么是访问列表元素的 [] 和 [[]] 符号的区别? 我对数据框类型的 [1]、[1,]、[,1]、[[1]] 的区别感到困惑. 据我所知,[1,] 将获取 matrix 的第一行,[,1] 将获取第一列.[[1]] 将获取 list 的第一个元素. 但是我查看了data.frame的文档,上面写着 数据框是具有相同行数的变量列表唯一的行名 ..
发布时间:2022-01-08 17:01:46 其他开发

有效地将相似的数字分组在一起

可能的重复: 一维数字数组聚类 我有一个数字数组,例如 [1, 20, 300, 45, 5, 60, 10, 270, 3].基于接近度将这些数字分组在一起的有效算法是什么?在这种情况下,我希望像 [1, 3, 5], [20, 45, 60] 和 [270, 300] 之类的东西>. 解决方案 您要问的最困难的部分是如何实际定义接近度.您希望 [5,10,15,20] 的输出是 ..