statistics 第9页 - IT屋-程序员软件开发技术分享社区

计算平均置信区间而不存储所有数据点

对于较大的 n(请参阅下文，了解如何确定足够大的内容)，根据中心极限定理，将样本均值的分布视为正态分布(高斯分布)是安全的，但我'd 喜欢为任何 n 提供置信区间的过程.这样做的方法是使用具有 n-1 个自由度的 Student T 分布. 所以问题是，给定您一次收集或遇到的数据点流，您如何计算 c(例如，c=.95) 数据点均值的置信区间(不存储之前遇到的所有数据)? 另一种提问方式 ..

发布时间：2022-01-07 23:32:39 math language-agnostic statistics montecarlo 其他开发

如何使用php识别机器人?

我正在为我的用户建立统计数据，不希望计算机器人的访问量. 现在我有一个基本的php，每次调用页面时mysql都会增加1. 但机器人也被添加到计数中. 有人能想出办法吗? 主要是把事情搞砸的主要因素.谷歌、雅虎、MSN 等解决方案您应该按用户代理字符串进行过滤.您可以在此处找到机器人提供的大约 300 个常见用户代理的列表:http://www.robotstxt ..

发布时间：2022-01-07 23:32:21 php bots statistics PHP

用于查找对的压缩矩阵函数

对于一组观察: [a1,a2,a3,a4,a5] 它们的成对距离 d=[[0,a12,a13,a14,a15][a21,0,a23,a24,a25][a31,a32,0,a34,a35][a41,a42,a43,0,a45][a51,a52,a53,a54,0]] 以压缩矩阵形式给出(上面的上三角，从 scipy.spatial.distance.pdist 计算): c=[a12,a1 ..

发布时间：2022-01-07 23:32:03 python algorithm math statistics scipy Python

我正在尝试了解 Baum-Welch 算法(与隐马尔可夫模型一起使用).我了解前向后向模型的基本理论，但如果有人用一些代码来帮助解释它会很好(我发现阅读代码更容易，因为我可以玩弄来理解它).我查了 github 和 bitbucket，没有找到任何容易理解的东西. 网上有很多 HMM 教程，但概率要么已经提供，要么在拼写检查器的情况下，添加出现的单词来制作模型.如果有人有创建仅包含观察结果的 ..

发布时间：2022-01-07 23:31:52 java python algorithm statistics machine-learning Java开发

趋势线(回归、曲线拟合)java库

我正在尝试开发一个应用程序，该应用程序可以计算与 excel 相同的趋势线，但适用于更大的数据集. 但我找不到任何计算此类回归的 Java 库.对于 linera 模型，我使用的是 Apache Commons 数学，对于另一个模型，Michael Thomas Flanagan 提供了一个很棒的数值库，但自 1 月以来它不再可用: http://www.ee.ucl.ac.uk/~m ..

发布时间：2022-01-07 23:31:44 java math statistics regression Java开发

将多行 SQL 查询导入单个字符串

在 R 中，如何导入多行文本文件(包含 SQL)的内容到单个字符串? sql.txt 文件如下所示: SELECT TOP 100设定点，总时间从费率我需要将该文本文件导入到 R 字符串中，使其看起来像这样: >sql字符串[1]“SELECT TOP 100 setpoint, tph FROM rate" 这样我就可以像这样将它提供给 RODBC >库(RODBC)>myco ..

发布时间：2022-01-07 23:31:35 string file r statistics rgui 其他开发

在数据框中的多列上使用 shapiro.test

我有一个数据框(我们称之为 df)，包含 n=100 列(C1、C2、...、C100) 和 50 行(R1, R2,...,R50).我测试了数据框中的所有列以确保它们是数字.我想知道使用 shapiro.test() 函数，每列中的数据是否具有正态分布. 我可以使用代码按列来做它: >shapiro.test(df$Cn) 或 >shapiro.test(df[,c(Cn)]) ..

发布时间：2022-01-07 23:31:28 r function statistics dataframe 其他开发

要在 R 中列出的文本文件

我有一个大文本文件，每行中有可变数量的字段.每行中的第一个条目对应一个生物途径，随后的每个条目对应该途径中的一个基因.前几行可能看起来像这样 path1 基因1 基因2路径2基因3基因4基因5基因6路径3基因7基因8基因9 我需要把这个文件作为一个列表读入R，每个元素是一个字符向量，列表中每个元素的名字是该行的第一个元素，例如: >路径 ..

发布时间：2022-01-07 23:31:08 list r text statistics 其他开发

在 R 中的最小二乘回归图中绘制垂直偏移量

我想用最小二乘回归线和将数据点连接到回归线的线段绘制一个图，如图所示的垂直偏移:http://mathworld.wolfram.com/LeastSquaresFitting.html (来自 MathWorld - Wolfram 网络资源:wolfram.com) 我在这里完成了绘图和回归线: ## 数据集来自 http://www.apsnet.org/education/adv ..

发布时间：2022-01-07 23:30:49 r statistics plot linear-regression least-squares 其他开发

估计两个时间序列之间的小时间偏移

我有两个时间序列，我怀疑它们之间存在时间偏移，我想估计这个时间偏移. 这个问题之前有人问过:求两个(非和谐)波之间的相位差和 ..

发布时间：2022-01-07 23:30:43 python statistics scipy signal-processing correlation Python

Akinator 游戏背后是怎样的算法?

Akinator 应用程序只需问几个问题就可以猜出一个字符.所以我想知道什么样的算法或方法可以让它做到这一点?有没有这类算法的名称，我可以在哪里阅读更多关于它们的信息? 解决方案是的，这类算法有一个名字——它叫做分类算法.决策树是分类算法的一个例子. 在这个分类问题中，算法的特征就是问题的答案. 决定接下来应该问哪个问题可以通过多种方式完成 - 例如通过尝试最大化预测(或 ..

发布时间：2022-01-07 23:30:30 algorithm statistics machine-learning artificial-intelligence AI人工智能

R 中标准模型对象的关键组件和功能是什么?

我在 R 中实现了一个新的统计模型，它在我的沙箱中工作，但我想让它更标准.一个很好的比较是 lm()，我可以在其中获取模型对象并: 应用summary()函数提取模型的系数从拟合(训练)数据中提取残差更新模型应用 predict() 函数将 plot() 应用到预先选择的描述图享受许多其他的快乐我浏览了 R 手册、在线搜索并翻阅了几本书，而且，除非我忽略了某些 ..

发布时间：2022-01-07 23:30:23 r statistics modeling 其他开发

执行 2 个样本 t 检验

我有样本 1 和样本 2 的均值、标准差和 n - 样本取自样本总体，但由不同实验室测量. 样本 1 和样本 2 的 n 不同.我想做一个加权(考虑 n)双尾 t 检验. 我尝试使用 scipy.stat 模块通过使用 np.random.normal 创建我的数字，因为它只需要数据而不是像 mean 和 std dev 这样的统计值(有没有办法直接使用这些值).但它不起作用，因为数据 ..

发布时间：2022-01-07 23:29:54 python numpy statistics Python

为随机森林回归模型设置 ntree 和 mtry 的值

我正在使用 R 包 randomForest 对一些生物数据进行回归.我的训练数据大小是 38772 X 201. 我只是想知道 --- 树的数量 ntree 和每个级别的变量数量 mtry 的合适值是多少?有没有近似公式可以找到这样的参数值? 我输入数据中的每一行是一个 200 个字符，代表氨基酸序列，我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离. 解决方案 m ..

发布时间：2022-01-07 23:29:46 r statistics machine-learning regression random-forest AI人工智能

使用pandas，计算Cramér的系数矩阵

我在 pandas 中有一个数据框，其中包含根据维基百科文章计算的指标.两个分类变量 nation 文章是关于哪个国家的，以及 lang 来自维基百科的哪种语言.对于单个指标，我想了解民族和语言变量的相关程度，我相信这是使用 Cramer 的统计数据完成的. index qid subj national lang metric value5 Q3488399 经济 cdi fr 信息量 0.7 ..

发布时间：2022-01-07 23:29:30 python pandas statistics Python

为什么不建议从 glmnet 模型中获取回归系数的统计汇总信息?

我有一个二元结果的回归模型.我用 glmnet 拟合模型并得到选定的变量及其系数. 由于 glmnet 不计算变量重要性，我想将确切的输出(选定的变量及其系数)提供给 glm 以获取信息(标准错误等). 我搜索了 r 个文档，看来我可以在 glm 中使用“方法"选项来指定用户定义的函数.但是我没有这样做，有人可以帮助我吗? 解决方案 “问回归的标准误差是一个很自然的问题系数 ..

发布时间：2022-01-07 23:29:21 r statistics regression glm glmnet 其他开发

警告:二项式 glm 中的非整数 #successes！(调查包)

我正在使用 twang 包来创建倾向得分，这些得分在使用 survey::svyglm 的二项式 glm 中用作权重.代码如下所示: pscore 这会产生以下警告: 警告信息:在 eval(expr,envir, enclos) 中:二项式 glm 中的非整数 #successes！有人知道我做错了什么吗? 我不确定这条消息在 stats.SE 上是否会更好，但总的来说，我想我 ..

发布时间：2022-01-07 23:29:01 r statistics glm 其他开发

如何使用 numpy/scipy 执行两样本单尾 t 检验

在R中，可以简单地使用进行两样本单尾t检验 >A = c(0.19826790, 1.36836629, 1.37950911, 1.46951540, 1.48197798, 0.07532846)>B = c(0.6383447, 0.5271385, 1.7721380, 1.7817880)>t.test(A, B, 替代=“更大")韦尔奇二样本 t 检验数据:A 和 Bt = -0 ..

发布时间：2022-01-07 23:28:41 python scipy statistics Python

如何检测时间序列数据中的显着变化/趋势?

所以我有一个 25 个样本的数组，我希望能够注意到它是从 25 个样本时间间隔减少 n 还是增加的趋势(基本上 25 个样本数组是我的缓冲区，由每个说 1 毫秒). 请注意，我正在寻找的是总体趋势，而不是个别导数(因为我会使用有限差分或其他数值微分技术获得). 基本上我希望我的数据是嘈杂的，所以即使在进行过滤等之后也可能会有起伏.但这是我正在寻找的行为增加或减少的总体趋势. 我想 ..

发布时间：2022-01-07 23:28:33 algorithm statistics real-time signal-processing numerical 其他开发

解释 R 中的 quantile() 函数

我整天都对 R 分位数函数感到困惑. 我对分位数的工作原理有一个直观的认识，并且获得了 M.S.在统计数据中，但是天哪，它的文档让我感到困惑. 来自文档: Q[i](p) = (1 - 伽玛) x[j] + 伽玛x[j+1], 到目前为止我已经接受了.对于 i 类型的分位数，它是 x[j] 和 x [j+1] 之间的插值，基于一些神秘的常数 gamma 其中 1 那 ..

发布时间：2022-01-07 23:28:25 math r statistics 其他开发

statistics相关内容