kernel-density相关内容
我有一个多边形的shapefile和分布在这些多边形上的另一个点。我想为每个多边形创建一个基于它所包含的点的核密度估计。不幸的是,我只能使用MASS包中的kde2d函数创建平方的KDE。我希望KDEs被塑造成多边形。 有什么建议吗? kde1
..
首先,我不完全确定这是否是发布这篇文章的正确位置,因为它可能应该放在一个更关注统计数据的论坛上。然而,由于我计划用R来实现这一点,我想最好把它张贴在这里。如果我错了,请道歉。 所以,我尝试做的是以下几点。我想模拟总共250.000个观测值的数据,分配一个连续的(非整数)值,该值与从经验数据(离散)得出的核密度估计值一致,原始值的范围从-5到+5。这是我想使用的分布图。 对我来说,模拟新
..
我有一个 pandas 数据框,其中每个观察值都有一个日期(作为 datetime[64] 格式的条目列).这些日期分布在大约 5 年的时间里.我想绘制所有观察日期的核密度图,年份标记在 x 轴上. 我已经弄清楚如何创建一个相对于某个参考日期的时间增量,然后创建一个每次观察与参考日期之间的小时数/天数/年数的密度图: df['relativeDate'].astype('timedelta
..
我的数据是预处理的图像数据,我想分开两个类.理论上(并希望在实践中)最佳阈值是双峰分布数据中两个峰值之间的局部最小值. 我的测试数据是:http://www.file-upload.net/download-9365389/data.txt.html 我试图遵循 此线程:我绘制了直方图并计算了核密度函数: datafile
..
我正在尝试使用 SciPy 的 gaussian_kde 函数来估计多元数据的密度.在我下面的代码中,我采样了一个 3D 多元法线并拟合了核密度,但我不确定如何评估我的拟合. 将 numpy 导入为 np来自 scipy 导入统计mu = np.array([1, 10, 20])sigma = np.matrix([[4, 10, 0], [10, 25, 0], [0, 0, 100]])数
..
我有一个包含 (x,y,z) 蛋白质位置的大型数据集,并且想将高占有率区域绘制为热图.理想情况下,输出应该类似于下面的体积可视化,但我不确定如何使用 matplotlib 实现这一点. 我最初的想法是将我的位置显示为 3D 散点图,并通过 KDE 为其密度着色.我用测试数据将其编码如下: 将 numpy 导入为 np来自 scipy 导入统计导入 matplotlib.pyplot 作为
..
我想在直方图和累积直方图中添加密度曲线,如下所示: 这是我所能做到的: hist.cum
..
# 数据设置种子 (123)xvar
..
我需要将一个简单的单变量数据集聚类为预设数量的聚类.从技术上讲,它更接近于对数据进行分箱或排序,因为它只是一维数据,但我的老板称其为聚类,所以我将坚持使用这个名称.我使用的系统当前使用的方法是 K-means,但这似乎有点过分. 是否有更好的方法来执行此任务? 其他一些帖子的答案提到了 KDE(核密度估计),但那是一种密度估计方法,它是如何工作的? 我看到 KDE 如何返回密度,
..
我一直在使用 'ks' 包和 'rgl' 包来生成 3D 内核密度估计和这些的 3D 图.第一部分效果很好(下面是简要示例).我无法弄清楚的是,是否有可能首先提取用于构建内核的给定 xyz 位置的内核值.换句话说,提取 3D 图中点的值,类似于用于 'raster' 包中 2D 表面的提取命令.有没有人有做这样的事情的经验可以为我指明正确的方向?非常感谢.-DJ library("rgl")图书
..
我正在使用这个 用于估计二维核密度的函数.然而,我对这个函数的参数有点困惑. 这是一个从正上方观察的示例,其中正在计算图中每个点 (O) 的密度.即:在非常小的区域内. 我想更改 KDE 函数参数,以便在更大的区域(例如,红色圆圈区域)计算密度.我需要更改哪些参数?我认为这是其中之一(或两者): “n:计算密度的 n x n 网格的大小(默认 2^8)" 或: “MI
..
我正在尝试获取 R 中股票价格对数的密度估计值.我知道我可以使用 plot(density(x)) 绘制它.但是,我实际上想要函数的值. 我正在尝试实现内核密度估计公式.这是我到目前为止所拥有的: a
..
Seaborn distplot 现已弃用并且将在以后的版本中删除.建议使用 histplot(或 displot 作为图形级图)作为选择.但是 distplot 和 histplot 的预设不同: from matplotlib import pyplot as plt将熊猫导入为 pd将 seaborn 作为 sns 导入x_list = [1, 2, 3, 4, 6, 7, 9, 9, 9
..
我有一个包含 ~900 行的数据框;我正在尝试为某些列绘制 KDEplots.在某些列中,大多数值是相同的最小值.当我包含太多最小值时,KDEPlot 会突然停止显示最小值.例如,以下包括 600 个值,其中 450 个是最小值,并且绘图看起来不错: y = df.sort_values(by='col1', Ascending=False)['col1'].values[:600]sb.kde
..
假设我们有一个数字在 0 到 1 之间的数组: arr=np.array([ 0. , 0. , 0. , 0. , 0.6934264 ,0. , 0. , 0. , 0. , 0. ,0. , 0. , 0.6934264 , 0. , 0.6934264 ,0. , 0. , 0. , 0. , 0.251463 ,0., 0., 0., 0.87104906, 0.251463,0. ,
..
更新:scipy.stats.gaussian_kde 现在支持加权样本.请参阅此处和此处了解详情. 目前无法使用 scipy.stats.gaussian_kde 来估计基于 加权样本.有哪些方法可以基于加权样本估计连续随机变量的密度? 解决方案 sklearn.neighbors.KernelDensity 也不是 statsmodels.nonparametric 似乎支持加权
..
我一直在尝试为我拥有的数据(染色体起始位点的频率)绘制 KDE 图,尽管我遵循了 examples 确切地说,当我使用我的数据或生成的数据时,看起来像我自己的,整个情节混乱,只产生垂直线而不是正常曲线.我希望更熟悉 scikit 的人学习 KDE 可以帮助我弄清楚我做错了什么. 这是示例中生成数据的代码,其中一切正常: 将 numpy 导入为 np导入 matplotlib导入 matpl
..
在R中,有一个函数叫做密度().该函数的语法是 - density(x, bw = "nrd0", adjust = 1, kernel = c("gaussian", "epanechnikov",“矩形"、“三角形"、“双权重"、“余弦"、“视余弦")、weights = NULL, window = kernel, width, give.Rkern = FALSE, n = 512,从,
..
http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html(供参考) x = [[2], [1], [3], [1] ... ] # 大约1000条数据grid = GridSearchCV(KernelDensity(), {'bandwidth': np.linspace(0.1
..
这个想法是在沿 1D 散布的每个点上方堆叠一个内核.具体来说,内核的峰值与每个点的 x 轴点对齐/居中.这类似于核密度估计,除了只有一半的核是如下图所示堆叠在每个点上. 最终,将计算每个密度的总和,并生成如下所示的单一曲线(即灰线). 作为起点,我研究了scikit 一个想法的学习模块.但是,我没有找到任何关于它们在每个点顶部内核的堆栈的方式/位置. 如果有人能为我提供很好的阅读
..