statistics相关内容
对于较大的 n(请参阅下文,了解如何确定足够大的内容),根据中心极限定理,将样本均值的分布视为正态分布(高斯分布)是安全的,但我'd 喜欢为任何 n 提供置信区间的过程.这样做的方法是使用具有 n-1 个自由度的 Student T 分布. 所以问题是,给定您一次收集或遇到的数据点流,您如何计算 c(例如,c=.95) 数据点均值的置信区间(不存储之前遇到的所有数据)? 另一种提问方式
..
我正在为我的用户建立统计数据,不希望计算机器人的访问量. 现在我有一个基本的php,每次调用页面时mysql都会增加1. 但机器人也被添加到计数中. 有人能想出办法吗? 主要是把事情搞砸的主要因素.谷歌、雅虎、MSN 等 解决方案 您应该按用户代理字符串进行过滤.您可以在此处找到机器人提供的大约 300 个常见用户代理的列表:http://www.robotstxt
..
对于一组观察: [a1,a2,a3,a4,a5] 它们的成对距离 d=[[0,a12,a13,a14,a15][a21,0,a23,a24,a25][a31,a32,0,a34,a35][a41,a42,a43,0,a45][a51,a52,a53,a54,0]] 以压缩矩阵形式给出(上面的上三角,从 scipy.spatial.distance.pdist 计算): c=[a12,a1
..
我正在尝试了解 Baum-Welch 算法(与隐马尔可夫模型一起使用).我了解前向后向模型的基本理论,但如果有人用一些代码来帮助解释它会很好(我发现阅读代码更容易,因为我可以玩弄来理解它).我查了 github 和 bitbucket,没有找到任何容易理解的东西. 网上有很多 HMM 教程,但概率要么已经提供,要么在拼写检查器的情况下,添加出现的单词来制作模型.如果有人有创建仅包含观察结果的
..
我正在尝试开发一个应用程序,该应用程序可以计算与 excel 相同的趋势线,但适用于更大的数据集. 但我找不到任何计算此类回归的 Java 库.对于 linera 模型,我使用的是 Apache Commons 数学,对于另一个模型,Michael Thomas Flanagan 提供了一个很棒的数值库,但自 1 月以来它不再可用: http://www.ee.ucl.ac.uk/~m
..
在 R 中,如何导入多行文本文件(包含 SQL)的内容到单个字符串? sql.txt 文件如下所示: SELECT TOP 100设定点,总时间从费率 我需要将该文本文件导入到 R 字符串中,使其看起来像这样: >sql字符串[1]“SELECT TOP 100 setpoint, tph FROM rate" 这样我就可以像这样将它提供给 RODBC >库(RODBC)>myco
..
我有一个数据框(我们称之为 df),包含 n=100 列(C1、C2、...、C100) 和 50 行(R1, R2,...,R50).我测试了数据框中的所有列以确保它们是数字.我想知道使用 shapiro.test() 函数,每列中的数据是否具有正态分布. 我可以使用代码按列来做它: >shapiro.test(df$Cn) 或 >shapiro.test(df[,c(Cn)])
..
我有一个大文本文件,每行中有可变数量的字段.每行中的第一个条目对应一个生物途径,随后的每个条目对应该途径中的一个基因.前几行可能看起来像这样 path1 基因1 基因2路径2基因3基因4基因5基因6路径3基因7基因8基因9 我需要把这个文件作为一个列表读入R,每个元素是一个字符向量,列表中每个元素的名字是该行的第一个元素,例如: >路径
..
我想用最小二乘回归线和将数据点连接到回归线的线段绘制一个图,如图所示的垂直偏移:http://mathworld.wolfram.com/LeastSquaresFitting.html (来自 MathWorld - Wolfram 网络资源:wolfram.com) 我在这里完成了绘图和回归线: ## 数据集来自 http://www.apsnet.org/education/adv
..
我有两个时间序列,我怀疑它们之间存在时间偏移,我想估计这个时间偏移. 这个问题之前有人问过:求两个(非和谐)波之间的相位差和
..
Akinator 应用程序 只需问几个问题就可以猜出一个字符.所以我想知道什么样的算法或方法可以让它做到这一点?有没有这类算法的名称,我可以在哪里阅读更多关于它们的信息? 解决方案 是的,这类算法有一个名字——它叫做 分类算法.决策树是分类算法的一个例子. 在这个分类问题中,算法的特征就是问题的答案. 决定接下来应该问哪个问题可以通过多种方式完成 - 例如通过尝试最大化预测(或
..
我在 R 中实现了一个新的统计模型,它在我的沙箱中工作,但我想让它更标准.一个很好的比较是 lm(),我可以在其中获取模型对象并: 应用summary()函数 提取模型的系数 从拟合(训练)数据中提取残差 更新模型 应用 predict() 函数 将 plot() 应用到预先选择的描述图 享受许多其他的快乐 我浏览了 R 手册、在线搜索并翻阅了几本书,而且,除非我忽略了某些
..
我有样本 1 和样本 2 的均值、标准差和 n - 样本取自样本总体,但由不同实验室测量. 样本 1 和样本 2 的 n 不同.我想做一个加权(考虑 n)双尾 t 检验. 我尝试使用 scipy.stat 模块通过使用 np.random.normal 创建我的数字,因为它只需要数据而不是像 mean 和 std dev 这样的统计值(有没有办法直接使用这些值).但它不起作用,因为数据
..
我正在使用 R 包 randomForest 对一些生物数据进行回归.我的训练数据大小是 38772 X 201. 我只是想知道 --- 树的数量 ntree 和每个级别的变量数量 mtry 的合适值是多少?有没有近似公式可以找到这样的参数值? 我输入数据中的每一行是一个 200 个字符,代表氨基酸序列,我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离. 解决方案 m
..
我在 pandas 中有一个数据框,其中包含根据维基百科文章计算的指标.两个分类变量 nation 文章是关于哪个国家的,以及 lang 来自维基百科的哪种语言.对于单个指标,我想了解民族和语言变量的相关程度,我相信这是使用 Cramer 的统计数据完成的. index qid subj national lang metric value5 Q3488399 经济 cdi fr 信息量 0.7
..
我有一个二元结果的回归模型.我用 glmnet 拟合模型并得到选定的变量及其系数. 由于 glmnet 不计算变量重要性,我想将确切的输出(选定的变量及其系数)提供给 glm 以获取信息(标准错误等). 我搜索了 r 个文档,看来我可以在 glm 中使用“方法"选项来指定用户定义的函数.但是我没有这样做,有人可以帮助我吗? 解决方案 “问回归的标准误差是一个很自然的问题系数
..
我正在使用 twang 包来创建倾向得分,这些得分在使用 survey::svyglm 的二项式 glm 中用作权重.代码如下所示: pscore 这会产生以下警告: 警告信息:在 eval(expr,envir, enclos) 中:二项式 glm 中的非整数 #successes! 有人知道我做错了什么吗? 我不确定这条消息在 stats.SE 上是否会更好,但总的来说,我想我
..
在R中,可以简单地使用 进行两样本单尾t检验 >A = c(0.19826790, 1.36836629, 1.37950911, 1.46951540, 1.48197798, 0.07532846)>B = c(0.6383447, 0.5271385, 1.7721380, 1.7817880)>t.test(A, B, 替代=“更大")韦尔奇二样本 t 检验数据:A 和 Bt = -0
..
所以我有一个 25 个样本的数组,我希望能够注意到它是从 25 个样本时间间隔减少 n 还是增加的趋势(基本上 25 个样本数组是我的缓冲区,由每个说 1 毫秒). 请注意,我正在寻找的是总体趋势,而不是个别导数(因为我会使用有限差分或其他数值微分技术获得). 基本上我希望我的数据是嘈杂的,所以即使在进行过滤等之后也可能会有起伏.但这是我正在寻找的行为增加或减少的总体趋势. 我想
..
我整天都对 R 分位数函数感到困惑. 我对分位数的工作原理有一个直观的认识,并且获得了 M.S.在统计数据中,但是天哪,它的文档让我感到困惑. 来自文档: Q[i](p) = (1 - 伽玛) x[j] + 伽玛x[j+1], 到目前为止我已经接受了.对于 i 类型的分位数,它是 x[j] 和 x [j+1] 之间的插值,基于一些神秘的常数 gamma 其中 1 那
..