statistics相关内容

计算平均置信区间而不存储所有数据点

对于较大的 n(请参阅下文,了解如何确定足够大的内容),根据中心极限定理,将样本均值的分布视为正态分布(高斯分布)是安全的,但我'd 喜欢为任何 n 提供置信区间的过程.这样做的方法是使用具有 n-1 个自由度的 Student T 分布. 所以问题是,给定您一次收集或遇到的数据点流,您如何计算 c(例如,c=.95) 数据点均值的置信区间(不存储之前遇到的所有数据)? 另一种提问方式 ..
发布时间:2022-01-07 23:32:39 其他开发

如何使用php识别机器人?

我正在为我的用户建立统计数据,不希望计算机器人的访问量. 现在我有一个基本的php,每次调用页面时mysql都会增加1. 但机器人也被添加到计数中. 有人能想出办法吗? 主要是把事情搞砸的主要因素.谷歌、雅虎、MSN 等 解决方案 您应该按用户代理字符串进行过滤.您可以在此处找到机器人提供的大约 300 个常见用户代理的列表:http://www.robotstxt ..
发布时间:2022-01-07 23:32:21 PHP

用于查找对的压缩矩阵函数

对于一组观察: [a1,a2,a3,a4,a5] 它们的成对距离 d=[[0,a12,a13,a14,a15][a21,0,a23,a24,a25][a31,a32,0,a34,a35][a41,a42,a43,0,a45][a51,a52,a53,a54,0]] 以压缩矩阵形式给出(上面的上三角,从 scipy.spatial.distance.pdist 计算): c=[a12,a1 ..
发布时间:2022-01-07 23:32:03 Python

Baum-Welch 的实现示例

我正在尝试了解 Baum-Welch 算法(与隐马尔可夫模型一起使用).我了解前向后向模型的基本理论,但如果有人用一些代码来帮助解释它会很好(我发现阅读代码更容易,因为我可以玩弄来理解它).我查了 github 和 bitbucket,没有找到任何容易理解的东西. 网上有很多 HMM 教程,但概率要么已经提供,要么在拼写检查器的情况下,添加出现的单词来制作模型.如果有人有创建仅包含观察结果的 ..
发布时间:2022-01-07 23:31:52 Java开发

趋势线(回归、曲线拟合)java库

我正在尝试开发一个应用程序,该应用程序可以计算与 excel 相同的趋势线,但适用于更大的数据集. 但我找不到任何计算此类回归的 Java 库.对于 linera 模型,我使用的是 Apache Commons 数学,对于另一个模型,Michael Thomas Flanagan 提供了一个很棒的数值库,但自 1 月以来它不再可用: http://www.ee.ucl.ac.uk/~m ..
发布时间:2022-01-07 23:31:44 Java开发

将多行 SQL 查询导入单个字符串

在 R 中,如何导入多行文本文件(包含 SQL)的内容到单个字符串? sql.txt 文件如下所示: SELECT TOP 100设定点,总时间从费率 我需要将该文本文件导入到 R 字符串中,使其看起来像这样: >sql字符串[1]“SELECT TOP 100 setpoint, tph FROM rate" 这样我就可以像这样将它提供给 RODBC >库(RODBC)>myco ..
发布时间:2022-01-07 23:31:35 其他开发

在数据框中的多列上使用 shapiro.test

我有一个数据框(我们称之为 df),包含 n=100 列(C1、C2、...、C100) 和 50 行(R1, R2,...,R50).我测试了数据框中的所有列以确保它们是数字.我想知道使用 shapiro.test() 函数,每列中的数据是否具有正态分布. 我可以使用代码按列来做它: >shapiro.test(df$Cn) 或 >shapiro.test(df[,c(Cn)]) ..
发布时间:2022-01-07 23:31:28 其他开发

要在 R 中列出的文本文件

我有一个大文本文件,每行中有可变数量的字段.每行中的第一个条目对应一个生物途径,随后的每个条目对应该途径中的一个基因.前几行可能看起来像这样 path1 基因1 基因2路径2基因3基因4基因5基因6路径3基因7基因8基因9 我需要把这个文件作为一个列表读入R,每个元素是一个字符向量,列表中每个元素的名字是该行的第一个元素,例如: >路径 ..
发布时间:2022-01-07 23:31:08 其他开发

Akinator 游戏背后是怎样的算法?

Akinator 应用程序 只需问几个问题就可以猜出一个字符.所以我想知道什么样的算法或方法可以让它做到这一点?有没有这类算法的名称,我可以在哪里阅读更多关于它们的信息? 解决方案 是的,这类算法有一个名字——它叫做 分类算法.决策树是分类算法的一个例子. 在这个分类问题中,算法的特征就是问题的答案. 决定接下来应该问哪个问题可以通过多种方式完成 - 例如通过尝试最大化预测(或 ..

R 中标准模型对象的关键组件和功能是什么?

我在 R 中实现了一个新的统计模型,它在我的沙箱中工作,但我想让它更标准.一个很好的比较是 lm(),我可以在其中获取模型对象并: 应用summary()函数 提取模型的系数 从拟合(训练)数据中提取残差 更新模型 应用 predict() 函数 将 plot() 应用到预先选择的描述图 享受许多其他的快乐 我浏览了 R 手册、在线搜索并翻阅了几本书,而且,除非我忽略了某些 ..
发布时间:2022-01-07 23:30:23 其他开发

执行 2 个样本 t 检验

我有样本 1 和样本 2 的均值、标准差和 n - 样本取自样本总体,但由不同实验室测量. 样本 1 和样本 2 的 n 不同.我想做一个加权(考虑 n)双尾 t 检验. 我尝试使用 scipy.stat 模块通过使用 np.random.normal 创建我的数字,因为它只需要数据而不是像 mean 和 std dev 这样的统计值(有没有办法直接使用这些值).但它不起作用,因为数据 ..
发布时间:2022-01-07 23:29:54 Python

为随机森林回归模型设置 ntree 和 mtry 的值

我正在使用 R 包 randomForest 对一些生物数据进行回归.我的训练数据大小是 38772 X 201. 我只是想知道 --- 树的数量 ntree 和每个级别的变量数量 mtry 的合适值是多少?有没有近似公式可以找到这样的参数值? 我输入数据中的每一行是一个 200 个字符,代表氨基酸序列,我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离. 解决方案 m ..

使用pandas,计算Cramér的系数矩阵

我在 pandas 中有一个数据框,其中包含根据维基百科文章计算的指标.两个分类变量 nation 文章是关于哪个国家的,以及 lang 来自维基百科的哪种语言.对于单个指标,我想了解民族和语言变量的相关程度,我相信这是使用 Cramer 的统计数据完成的. index qid subj national lang metric value5 Q3488399 经济 cdi fr 信息量 0.7 ..
发布时间:2022-01-07 23:29:30 Python

为什么不建议从 glmnet 模型中获取回归系数的统计汇总信息?

我有一个二元结果的回归模型.我用 glmnet 拟合模型并得到选定的变量及其系数. 由于 glmnet 不计算变量重要性,我想将确切的输出(选定的变量及其系数)提供给 glm 以获取信息(标准错误等). 我搜索了 r 个文档,看来我可以在 glm 中使用“方法"选项来指定用户定义的函数.但是我没有这样做,有人可以帮助我吗? 解决方案 “问回归的标准误差是一个很自然的问题系数 ..
发布时间:2022-01-07 23:29:21 其他开发

警告:二项式 glm 中的非整数 #successes!(调查包)

我正在使用 twang 包来创建倾向得分,这些得分在使用 survey::svyglm 的二项式 glm 中用作权重.代码如下所示: pscore 这会产生以下警告: 警告信息:在 eval(expr,envir, enclos) 中:二项式 glm 中的非整数 #successes! 有人知道我做错了什么吗? 我不确定这条消息在 stats.SE 上是否会更好,但总的来说,我想我 ..
发布时间:2022-01-07 23:29:01 其他开发

如何检测时间序列数据中的显着变化/趋势?

所以我有一个 25 个样本的数组,我希望能够注意到它是从 25 个样本时间间隔减少 n 还是增加的趋势(基本上 25 个样本数组是我的缓冲区,由每个说 1 毫秒). 请注意,我正在寻找的是总体趋势,而不是个别导数(因为我会使用有限差分或其他数值微分技术获得). 基本上我希望我的数据是嘈杂的,所以即使在进行过滤等之后也可能会有起伏.但这是我正在寻找的行为增加或减少的总体趋势. 我想 ..

解释 R 中的 quantile() 函数

我整天都对 R 分位数函数感到困惑. 我对分位数的工作原理有一个直观的认识,并且获得了 M.S.在统计数据中,但是天哪,它的文档让我感到困惑. 来自文档: Q[i](p) = (1 - 伽玛) x[j] + 伽玛x[j+1], 到目前为止我已经接受了.对于 i 类型的分位数,它是 x[j] 和 x [j+1] 之间的插值,基于一些神秘的常数 gamma 其中 1 那 ..
发布时间:2022-01-07 23:28:25 其他开发