quantile相关内容
我正在使用R编程语言。假设我有以下数据框: var_1 = rnorm(100,10,10) var_2 = rnorm(100,10,10) var_3 = rnorm(100,10,10) d = data.frame(var_1, var_2, var_3) head(d) var_1 var_2 var_3 1 14.251923 14.8778
..
我想将我相对较大的 R 数据集中的所有值替换为第 95 个百分位以上和第 5 个百分位以下的所有值,分别用这些百分位值替换.我的目标是避免简单地从数据中完全裁剪这些异常值. 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的任何信息. 解决方案 这样就可以了. fun
..
我有一个数据帧 t_unit,它是 pd.read_csv() 函数的结果. 日期时间 B18_LR_T B18_B1_T2016 年 3 月 24 日 09:00 21.274 21.17924/03/2016 10:00 19.987 19.86824/03/2016 11:00 21.632 21.41724/03/2016 12:00 26.285 24.7792016 年 3 月 24
..
我正在使用 Pandas 计算一些金融风险分析,包括风险价值.简而言之,要计算风险价值 (VaR),您需要模拟投资组合价值变化的时间序列,然后计算特定的尾部百分位损失.例如,95% VaR 是该时间序列中的第 5 个百分位数. 我在 Pandas 数据框中有我的时间序列,目前我正在使用 pd.quantile() 函数来计算百分位数.我的问题是,VaR 的典型市场惯例是使用排除百分位(即:9
..
我正在使用 spark-sql-2.4.1v,并且我正在尝试在给定数据的每一列上查找分位数,即百分位数 0、百分位数 25 等. 当我在做多个百分位数时,如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+------------+----------+-----------+|身份证|日期|收入|con_dist_1|con_dist_2|+-
..
我有一个每月回报的 xts 对象(一列是一种工具的时间序列).我想知道每个月的每个回报的分位数.我从本地数据库有自己的一组工具价格,但我可以使用 getSymbols 进行复制. 我在股票收益上使用了 quantile 以获得我的分位数的边界.然后我尝试使用 cut 将我的回报分成分位数,但我被困在那里. 理想情况下,我应该有每个工具的月分位数时间序列. require(quantm
..
我想使用包含复杂调查样本设计的另一列(连续变量)的分位数来计算新列.这个想法是在数据框中创建一个新变量,指示每个观察值属于哪个分位数组 以下是我在不包含示例设计的情况下执行想法的方式,因此您可以了解我的目标. # 加载数据数据(API)# 将数据转换为 data.table 格式(主要是为了提高处理速度)apiclus1
..
我继承了一些旧的 Stata 代码 (Stata11),它使用 xtile 函数按分位数对向量中的观察进行分类(在这种情况下,只是标准的 5 个五分位数、20%、40%、60%、80%、100%). 我正在尝试在 Python 中复制一段代码,并且我正在使用 SciPy.stats.mstats 函数 mquantiles() 进行计算. 据我从 Stata 文档和在线搜索中得知,St
..
我有两列表示相同数量的数据;一列来自我的训练数据,另一列来自我的验证数据. 我知道如何有效地计算训练数据的百分位排名: pandas.DataFrame(training_data).rank(pct = True).values 我的问题是,我怎样才能有效获得一组与训练数据列相关的验证数据列的相似百分位排名?也就是说,对于验证数据列中的每个值,我如何才能找到其相对于训练数据列中所有值的
..
我想知道如何让 R 告诉我 SD(作为 R 内置的 qnorm() 中的一个参数)正态分布的 95% 限制值是否已知? 举个例子,我知道我的法线的两个 95% 极限值分别是 158 和 168.因此,在下面的 R 代码 SD 中显示为“x".如果“y"(这个简单的qnorm()函数的答案)需要是(158, 168),那么 R可以告诉我x 应该是什么? y 解决方案 正态分布的一般过程
..
我需要在下面使用 R 计算这个积分: 我在 R 中使用分位数回归设法实现的 q_theta(x) 函数(包:quantreg). matrix=structure(c(0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09,0.1, 0.11, 0.12, 0.13, 0.14, 0.15, 0.16, 0.17, 0.18, 0.19,
..
我正在使用R语言分析河流流量数据,并且有两个嵌套列表.首先保存来自不同河流的数据(流量测试),称为910、950、1012和1087等数字.我有数百个每日流量测量值(流量),但是当我准备年度统计数据时,确切的日期和月份并不重要.Flowtest表中的每个度量(流量)均以年份(年)为参考. Flowtest
..
我想根据分位数将 geom_quantile 中的线型更改为不同的线型.添加 linetype =“" 会将相同的线型应用于不同的分位数.相反,我想用.5实线,.3和.7的虚线以及.05和.95的虚线. 这是数据集的一部分: df_long
..
我有一个具有以下结构的数据框: A.Data 是带有数字数据的向量 A.Quartile 是一个向量,用于计算每个 A.data 的四分位数,并且该数据属于哪个四分位数.(Q1,Q2,Q3,Q4). 我使用了非常相似的代码来创建分位数和所属的Q. 分位数(x
..
考虑一下,根据参数(3,5)的Gamma分布,我有100万个观测值.我可以使用 summary()找到分位数,但是我试图找到每个分为10条的红线之间有多少个观测值? a = rgamma(1e6,shape = 3,rate = 5)总结(a)最小第一区中位数第三区最大限度.0.0053 0.3455 0.5351 0.6002 0.7845 4.4458
..
我给 d3.quantile 提供了一个由24个数字组成的排序数组,并要求它计算第一个四分位数的值.由于可以将数组平均分为6个值的四组,因此我的假设是结果将是arr [5]和arr [6]的平均值,但这不是我得到的. var arr = [89.7,93.2,94,94.3,94.5,95.4,95.9,96.1,96.4,96.5,96.9,96.9,97.3,97.6,97.6,97.6,
..
有没有办法在ggplot中以某种方式设置full_range = T参数? library(ggplot2) ggplot(mtcars, aes(hp, disp)) + geom_point() + #geom_smooth(method = "lm", aes(group = factor(gear), color = factor(gear)), fullrange =
..
我目前正在从ggplot中的许多回归模型中绘制出许多不同的第一差异分布.为了便于解释差异,我想标记每个分布的2.5%和97.5%百分位数.由于我将进行大量绘图,并且由于数据按二维(模型和类型)分组,因此我想在ggplot环境中定义和绘制各自的百分位数.使用构面绘制分布可以使我精确到所需的位置(百分位数除外).我当然可以手动执行此操作,但是理想情况下,我希望找到一个仍可以使用facet_grid的解
..
我想将相对较大的 R 数据集中的所有值替换为分别位于第95个百分点和第5个百分点以下的值。我的目标是避免只从数据中完全剔除这些离群值。 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的信息。 。 解决方案 这可以做到。 乐趣分位数[2]]
..
我正在使用spark-sql-2.4.1v,并且尝试在给定数据的每一列上找到分位数,即百分位数0,百分位数25等. 当我执行多个百分位数时,如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+-------------+----------+-----------+ | id| date| revenue|con_dist
..