quantile相关内容

如何用R中的第5个和第95个百分位值替换异常值

我想将我相对较大的 R 数据集中的所有值替换为第 95 个百分位以上和第 5 个百分位以下的所有值,分别用这些百分位值替换.我的目标是避免简单地从数据中完全裁剪这些异常值. 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的任何信息. 解决方案 这样就可以了. fun ..
发布时间:2022-01-21 12:45:46 其他开发

Python 等效于 Excel 的 PERCENTILE.EXC

我正在使用 Pandas 计算一些金融风险分析,包括风险价值.简而言之,要计算风险价值 (VaR),您需要模拟投资组合价值变化的时间序列,然后计算特定的尾部百分位损失.例如,95% VaR 是该时间序列中的第 5 个百分位数. 我在 Pandas 数据框中有我的时间序列,目前我正在使用 pd.quantile() 函数来计算百分位数.我的问题是,VaR 的典型市场惯例是使用排除百分位(即:9 ..
发布时间:2022-01-07 23:24:23 Python

如何将计算的百分位数包含/映射到结果数据框?

我正在使用 spark-sql-2.4.1v,并且我正在尝试在给定数据的每一列上查找分位数,即百分位数 0、百分位数 25 等. 当我在做多个百分位数时,如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+------------+----------+-----------+|身份证|日期|收入|con_dist_1|con_dist_2|+- ..
发布时间:2021-11-14 23:32:59 其他开发

将收益分成许多时间序列的分位数

我有一个每月回报的 xts 对象(一列是一种工具的时间序列).我想知道每个月的每个回报的分位数.我从本地数据库有自己的一组工具价格,但我可以使用 getSymbols 进行复制. 我在股票收益上使用了 quantile 以获得我的分位数的边界.然后我尝试使用 cut 将我的回报分成分位数,但我被困在那里. 理想情况下,我应该有每个工具的月分位数时间序列. require(quantm ..
发布时间:2021-10-04 18:54:37 其他开发

计算包含样本设计的分位数(调查包)

我想使用包含复杂调查样本设计的另一列(连续变量)的分位数来计算新列.这个想法是在数据框中创建一个新变量,指示每个观察值属于哪个分位数组 以下是我在不包含示例设计的情况下执行想法的方式,因此您可以了解我的目标. # 加载数据数据(API)# 将数据转换为 data.table 格式(主要是为了提高处理速度)apiclus1 ..
发布时间:2021-09-01 19:07:24 其他开发

获取 SciPy 分位数以匹配 Stata xtile 函数

我继承了一些旧的 Stata 代码 (Stata11),它使用 xtile 函数按分位数对向量中的观察进行分类(在这种情况下,只是标准的 5 个五分位数、20%、40%、60%、80%、100%). 我正在尝试在 Python 中复制一段代码,并且我正在使用 SciPy.stats.mstats 函数 mquantiles() 进行计算. 据我从 Stata 文档和在线搜索中得知,St ..
发布时间:2021-07-16 21:00:18 Python

如何使用python计算一列数据相对于另一列的百分位排名

我有两列表示相同数量的数据;一列来自我的训练数据,另一列来自我的验证数据. 我知道如何有效地计算训练数据的百分位排名: pandas.DataFrame(training_data).rank(pct = True).values 我的问题是,我怎样才能有效获得一组与训练数据列相关的验证数据列的相似百分位排名?也就是说,对于验证数据列中的每个值,我如何才能找到其相对于训练数据列中所有值的 ..
发布时间:2021-06-13 20:44:52 Python

根据分位数信息确定正态分布

我想知道如何让 R 告诉我 SD(作为 R 内置的 qnorm() 中的一个参数)正态分布的 95% 限制值是否已知? 举个例子,我知道我的法线的两个 95% 极限值分别是 158 和 168.因此,在下面的 R 代码 SD 中显示为“x".如果“y"(这个简单的qnorm()函数的答案)需要是(158, 168),那么 R可以告诉我x 应该是什么? y 解决方案 正态分布的一般过程 ..
发布时间:2021-06-08 18:57:03 其他开发

使用嵌套的查找表在第二个表中查找高于阈值的值,并在R中对其进行量化

我正在使用R语言分析河流流量数据,并且有两个嵌套列表.首先保存来自不同河流的数据(流量测试),称为910、950、1012和1087等数字.我有数百个每日流量测量值(流量),但是当我准备年度统计数据时,确切的日期和月份并不重要.Flowtest表中的每个度量(流量)均以年份(年)为参考. Flowtest ..
发布时间:2021-05-30 21:14:44 其他开发

如何计算分位数中的观测数?

考虑一下,根据参数(3,5)的Gamma分布,我有100万个观测值.我可以使用 summary()找到分位数,但是我试图找到每个分为10条的红线之间有多少个观测值? a = rgamma(1e6,shape = 3,rate = 5)总结(a)最小第一区中位数第三区最大限度.0.0053 0.3455 0.5351 0.6002 0.7845 4.4458 ..
发布时间:2021-05-09 19:32:20 其他开发

d3.quantile似乎错误地计算了Q1

我给 d3.quantile 提供了一个由24个数字组成的排序数组,并要求它计算第一个四分位数的值.由于可以将数组平均分为6个值的四组,因此我的假设是结果将是arr [5]和arr [6]的平均值,但这不是我得到的. var arr = [89.7,93.2,94,94.3,94.5,95.4,95.9,96.1,96.4,96.5,96.9,96.9,97.3,97.6,97.6,97.6, ..
发布时间:2021-04-28 18:44:24 其他开发

ggplot2中的geom_quantile完整范围

有没有办法在ggplot中以某种方式设置full_range = T参数? library(ggplot2) ggplot(mtcars, aes(hp, disp)) + geom_point() + #geom_smooth(method = "lm", aes(group = factor(gear), color = factor(gear)), fullrange = ..
发布时间:2020-11-14 02:46:47 其他开发

用刻面绘制ggplot2中分布的分位数

我目前正在从ggplot中的许多回归模型中绘制出许多不同的第一差异分布.为了便于解释差异,我想标记每个分布的2.5%和97.5%百分位数.由于我将进行大量绘图,并且由于数据按二维(模型和类型)分组,因此我想在ggplot环境中定义和绘制各自的百分位数.使用构面绘制分布可以使我精确到所需的位置(百分位数除外).我当然可以手动执行此操作,但是理想情况下,我希望找到一个仍可以使用facet_grid的解 ..
发布时间:2020-11-14 01:52:40 其他开发

如何用R中的第5个和第95个百分位数替换离群值

我想将相对较大的 R 数据集中的所有值替换为分别位于第95个百分点和第5个百分点以下的值。我的目标是避免只从数据中完全剔除这些离群值。 任何建议都将不胜感激,我在其他任何地方都找不到有关如何执行此操作的信息。 。 解决方案 这可以做到。 乐趣分位数[2]] ..
发布时间:2020-10-17 22:30:07 其他开发